DPO训练 #6

1190201205 · 2024-06-25T13:26:52Z

作者你好，请问公开部署的92M的模型采用了DPO训练吗？
我在测试的时候发现效果很好，对比我用baby_llama_chinese2自己训练出来的模型好多了。
请问你在测试模型的时候有遇到乱回答或者重复回答的问题吗
虽然在你公开的数据集上看到了RL的数据但是并没有公开相关的代码，是并没有采用改方法，还是只是没有公布呢？

wdndev · 2024-06-25T13:29:39Z

用了DPO，这周六日我传上去；代码还需要整理一下

1190201205 · 2024-06-26T00:56:01Z

用了DPO，这周六日我传上去；代码还需要整理一下

非常感谢

wdndev · 2024-07-07T13:36:45Z

已更新

wdndev · 2024-07-07T13:38:09Z

针对这个问题：“请问你在测试模型的时候有遇到乱回答或者重复回答的问题吗”，主要还是模型太小，训练的数据也太少，胡乱回答的问题是有的，但是有些常识没有错，92M的模型也可以了。

wdndev · 2024-07-07T13:40:45Z

训练的数据，做了一定的清洗（主要是过滤有害，无意义的问题），而且用的数据量比baby_llama_chinese2稍微多一点；
还有就是数据的多样性；我用 https://huggingface.co/datasets/wdndev/webnovel-chinese 这个数据集，清洗过后训练的模型，效果确实很差，数据多样性太低了

1190201205 · 2024-07-08T06:01:10Z

训练的数据，做了一定的清洗（主要是过滤有害，无意义的问题），而且用的数据量比baby_llama_chinese2稍微多一点；还有就是数据的多样性；我用 https://huggingface.co/datasets/wdndev/webnovel-chinese 这个数据集，清洗过后训练的模型，效果确实很差，数据多样性太低了

确实我看了这个链接里面的数据都是网络小说，没有很多像百度百科那样常识性知识。同样就是关于预训练语料存在低质量的问题，我最近调研之后发现还有就是他们提到了通过已有的大模型对于语料进行困惑都PPL计算低于一定阈值的语句直接剔除，这样来过滤掉一些不太正常或者抽象的句子。这样的方法有没有效果

wdndev · 2024-07-08T13:07:01Z

效果肯定是有的，这个问题主要还是围绕“什么是高质量数据”，据我现在了解，有两种方式：

规则过滤：dolma；这篇论文认为个人训练的模型或是ppl阈值过滤会带有某种偏好，这就不是高质量数据量了；
模型过滤：使用wiki做正样本，其他数据做负样本，训练一个模型，进行过滤；或是用PPL卡阈值过滤；llama2、llama3、InstructGPT都采用这种方式。

xxlxms · 2024-07-25T15:01:26Z

训练个几百b数据才能有点效果吧

wdndev · 2024-07-26T15:35:31Z

@xxlxms 主要是模型太小了（92M），用0.5~1b左右的模型，训练50B左右数据效果就有了；可以参考一个scaling law

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

DPO训练 #6

DPO训练 #6

1190201205 commented Jun 25, 2024

wdndev commented Jun 25, 2024 •

edited

Loading

1190201205 commented Jun 26, 2024

wdndev commented Jul 7, 2024

wdndev commented Jul 7, 2024

wdndev commented Jul 7, 2024

1190201205 commented Jul 8, 2024

wdndev commented Jul 8, 2024

xxlxms commented Jul 25, 2024

wdndev commented Jul 26, 2024

DPO训练 #6

DPO训练 #6

Comments

1190201205 commented Jun 25, 2024

wdndev commented Jun 25, 2024 • edited Loading

1190201205 commented Jun 26, 2024

wdndev commented Jul 7, 2024

wdndev commented Jul 7, 2024

wdndev commented Jul 7, 2024

1190201205 commented Jul 8, 2024

wdndev commented Jul 8, 2024

xxlxms commented Jul 25, 2024

wdndev commented Jul 26, 2024

wdndev commented Jun 25, 2024 •

edited

Loading