Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

在使用train.py训练模型的时候,读取预训练模型,然后进行初始化,这个好像初始化不了 #4

Open
guangh01 opened this issue Jul 17, 2021 · 6 comments

Comments

@guangh01
Copy link

在使用train.py训练模型的时候,读取预训练模型,然后进行初始化,这个好像初始化不了;我把项目主训练的作文配置文件config.json、pytorch_model.bin两个文件作为预训练文件读取,然后去训练新的模型,最后去生成新的模型生成文章的时候,内容还是作文内容。不知道我是哪里设置错误了,小白一个。

@MaNing1924382115
Copy link

我想问一下,cmp109M那个模型在哪下载呢,去源码哪里没找到

@MaNing1924382115
Copy link

而且代码里是没有gpt2模型的代码实现吗?直接调用的库吗?

@yangjianxin1
Copy link
Owner

我想问一下,cmp109M那个模型在哪下载呢,去源码哪里没找到

模型权重是使用作文数据集自己训练得到的

@yangjianxin1
Copy link
Owner

而且代码里是没有gpt2模型的代码实现吗?直接调用的库吗?

CPM模型本质上是个中文版的GPT2模型,本文使用huggingface的transformers项目的模型实现

@yangjianxin1
Copy link
Owner

去训练新的模型,最后去生成

用什么数据训练,训练了多久,loss降到了多少

@guangh01
Copy link
Author

去训练新的模型,最后去生成

用什么数据训练,训练了多久,loss降到了多少

产品文章,10多M,训练3轮而已,loss降到了0了

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants