Fix context overflow #131

maxreciprocate · 2022-12-09T21:47:57Z

Fix of #130, this PR

limits generation's size to max_new_tokens
truncates prompts to seq_length - max_new_tokens
enables separate logging of prompts and generations

PPO
ILQL

jon-tow

Tested locally and looks great! I left a few comments and questions 🙏

trlx/model/nn/ilql_models.py

trlx/model/accelerate_base_model.py

examples/randomwalks/configs/ppo_randomwalks.yml

jon-tow

Looks good to me! Thanks for clearing up my questions.

Note: Awaiting logs before merging.

LouisCastricato · 2022-12-13T13:59:27Z

When are we merging

Dahoas · 2022-12-14T19:14:17Z

trlx/model/nn/ppo_models.py

@@ -162,10 +163,12 @@ def loss(
            old_values - self.cliprange_value,
            old_values + self.cliprange_value,
        )
+        n = mask.sum()


I'm not sure but shouldn't n be vector valued where each component is the size of the ith generation? (Before endoftext)

it is used only in reductions to scalars so no

jon-tow

I left one tiny nit if you could take a look!

trlx/model/nn/ppo_models.py

maxreciprocate added 8 commits December 8, 2022 16:04

feat(ppo_models): context truncating generation

dc6acb7

feat(base_model): segragate prompts and responses in logging

ed4f6f3

fix(ppo_model): truncate left padded tokens

4674e3e

revert(ppo_models): remove context overflowing generate()

3b886df

feat(configs): add max_new_tokens

a8b6eaf

fix(pipeline): truncate prompts

31e5bb5

chore(base_model): remove whole samples from logging

59176ac

chore(configs): update the rest of configs

48899e0

jon-tow self-requested a review December 9, 2022 22:40

jon-tow reviewed Dec 10, 2022

View reviewed changes

trlx/model/nn/ilql_models.py Show resolved Hide resolved

trlx/model/nn/ilql_models.py Show resolved Hide resolved

trlx/model/accelerate_base_model.py Show resolved Hide resolved

examples/randomwalks/configs/ppo_randomwalks.yml Show resolved Hide resolved

maxreciprocate added 2 commits December 12, 2022 09:41

fix(configs): update program synthesis config

27bd892

fix(base_model): prompts sizes

d6be611

jon-tow approved these changes Dec 12, 2022

View reviewed changes

revert(config): emulate old ppo_sentiments behavior

74e758a

maxreciprocate added 3 commits December 14, 2022 16:31

fix(ppo): unequal generation lengths

7366ab6

chore(ppo): put indexing on cpu

1b4d5db

revert(configl): old ilql_sentiments behavior

dd8b21a

maxreciprocate requested a review from jon-tow December 14, 2022 18:29

Dahoas reviewed Dec 14, 2022

View reviewed changes

maxreciprocate added 5 commits December 14, 2022 21:42

fix(ppo): unzero clipfrac

d1a9c38

Merge branch 'main' into fix-context-overflow

97bdd72

merge(configs): delete old options

f394897

revert(config): old ppo_sentiment behavior

a960ada

refactor(ppo_orchestrator): remove unused ref_logprobs

a290dd8

jon-tow mentioned this pull request Dec 14, 2022

Remove incorrect default config settings #137

Merged

jon-tow reviewed Dec 15, 2022

View reviewed changes

trlx/model/nn/ppo_models.py Outdated Show resolved Hide resolved

maxreciprocate added 3 commits December 15, 2022 23:11

fix(base_model): pin rewards to single precision

441dd23

refactor(ppo): rename padding percentage

330dde3

feat(wandb): add git branch name to tags

6df0195

maxreciprocate added 2 commits December 15, 2022 23:57

refactor(wandb): logging name hierarchy

005b348

revert(wandb): merge tags into a single string

cacebc3

maxreciprocate merged commit dc0e060 into main Dec 15, 2022

maxreciprocate deleted the fix-context-overflow branch December 15, 2022 23:00

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Fix context overflow #131

Fix context overflow #131

maxreciprocate commented Dec 9, 2022 •

edited

Loading

jon-tow left a comment

jon-tow left a comment •

edited

Loading

LouisCastricato commented Dec 13, 2022

Dahoas Dec 14, 2022

maxreciprocate Dec 14, 2022 •

edited

Loading

jon-tow left a comment

Fix context overflow #131

Fix context overflow #131

Conversation

maxreciprocate commented Dec 9, 2022 • edited Loading

jon-tow left a comment

Choose a reason for hiding this comment

jon-tow left a comment • edited Loading

Choose a reason for hiding this comment

LouisCastricato commented Dec 13, 2022

Dahoas Dec 14, 2022

Choose a reason for hiding this comment

maxreciprocate Dec 14, 2022 • edited Loading

Choose a reason for hiding this comment

jon-tow left a comment

Choose a reason for hiding this comment

maxreciprocate commented Dec 9, 2022 •

edited

Loading

jon-tow left a comment •

edited

Loading

maxreciprocate Dec 14, 2022 •

edited

Loading