How to generate reward-labeled dataset #561

mikkelmedm · 2023-09-20T09:11:55Z

🚀 The feature, motivation, and pitch

Would like to fine-tune either using a reward model or using a reward-labeled dataset, however am unable to find any references to how such a dataset looks like or how to generate it. Hope you care to elaborate, as I am new to this.

Alternatives

No response

Additional context

No response

mikkelmedm added the feature request New feature or request label Sep 20, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

How to generate reward-labeled dataset #561

How to generate reward-labeled dataset #561

mikkelmedm commented Sep 20, 2023

How to generate reward-labeled dataset #561

How to generate reward-labeled dataset #561

Comments

mikkelmedm commented Sep 20, 2023

🚀 The feature, motivation, and pitch

Alternatives

Additional context