Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

DPO训练 #6

Open
1190201205 opened this issue Jun 25, 2024 · 9 comments
Open

DPO训练 #6

1190201205 opened this issue Jun 25, 2024 · 9 comments

Comments

@1190201205
Copy link

作者你好,请问公开部署的92M的模型采用了DPO训练吗 ?
我在测试的时候发现效果很好 ,对比我用baby_llama_chinese2自己训练出来的模型好多了。
请问你在测试模型的时候有遇到乱回答或者重复回答的问题吗
虽然在你公开的数据集上看到了RL的数据但是并没有公开相关的代码,是并没有采用改方法,还是只是没有公布呢?

@wdndev
Copy link
Owner

wdndev commented Jun 25, 2024

用了DPO,这周六日我传上去;代码还需要整理一下

@1190201205
Copy link
Author

用了DPO,这周六日我传上去;代码还需要整理一下

非常感谢

@wdndev
Copy link
Owner

wdndev commented Jul 7, 2024

已更新

@wdndev
Copy link
Owner

wdndev commented Jul 7, 2024

针对这个问题:“请问你在测试模型的时候有遇到乱回答或者重复回答的问题吗”,主要还是模型太小,训练的数据也太少,胡乱回答的问题是有的,但是有些常识没有错,92M的模型也可以了。

@wdndev
Copy link
Owner

wdndev commented Jul 7, 2024

训练的数据,做了一定的清洗(主要是过滤有害,无意义的问题),而且用的数据量比baby_llama_chinese2稍微多一点;
还有就是数据的多样性;我用 https://huggingface.co/datasets/wdndev/webnovel-chinese 这个数据集,清洗过后训练的模型,效果确实很差,数据多样性太低了

@1190201205
Copy link
Author

训练的数据,做了一定的清洗(主要是过滤有害,无意义的问题),而且用的数据量比baby_llama_chinese2稍微多一点; 还有就是数据的多样性;我用 https://huggingface.co/datasets/wdndev/webnovel-chinese 这个数据集,清洗过后训练的模型,效果确实很差,数据多样性太低了

确实 我看了这个链接里面的数据都是网络小说,没有很多像百度百科那样常识性知识。同样就是关于预训练语料存在低质量的问题,我最近调研之后发现还有就是他们提到了通过已有的大模型对于语料进行困惑都PPL计算 低于一定阈值的语句直接剔除,这样来过滤掉一些不太正常或者抽象的句子。这样的方法有没有效果

@wdndev
Copy link
Owner

wdndev commented Jul 8, 2024

效果肯定是有的,这个问题主要还是围绕“什么是高质量数据”,据我现在了解,有两种方式:

  1. 规则过滤:dolma;这篇论文认为个人训练的模型或是ppl阈值过滤会带有某种偏好,这就不是高质量数据量了;
  2. 模型过滤:使用wiki做正样本,其他数据做负样本,训练一个模型,进行过滤;或是用PPL卡阈值过滤;llama2、llama3、InstructGPT都采用这种方式。

@xxlxms
Copy link

xxlxms commented Jul 25, 2024

训练个几百b数据才能有点效果吧

@wdndev
Copy link
Owner

wdndev commented Jul 26, 2024

@xxlxms 主要是模型太小了(92M),用0.5~1b左右的模型,训练50B左右数据效果就有了;可以参考一个scaling law

image

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants