Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于特征工程的做法 #10

Open
yuqing-liu-dut opened this issue May 29, 2018 · 1 comment
Open

关于特征工程的做法 #10

yuqing-liu-dut opened this issue May 29, 2018 · 1 comment

Comments

@yuqing-liu-dut
Copy link

您好!很荣幸看到您的代码,然而在训练我们的数据集时遇到了一些问题。
问题1:特征工程
关于特征的编码,我们比较好奇是使用什么样的方式。如果可以的话,能请您发一下对criteo数据集进行特征编码的代码或链接吗?
问题2:标签编码
在阅读代码的过程中,我发现在读取数据时,index是对应的Xi_train内容,是读取的csv中的数据。而value是1-39的标签。这让我有些费解。如果可以的话,能请您大概描述一下这么做的原因吗?或者请您简单介绍一下embed标签的csv中每一列代表的意义吗?

@nzc
Copy link
Owner

nzc commented May 29, 2018

@yuqing-liu-dut 特征工程是参考了criteo夺冠的队伍的特征工程方案,但是没有加入他们的gbdt的叶子节点的特征,只用了原始的39个特征。而在我的代码中,针对该数据集,Xi_train存储的就是值为1的index,而value是一直都为1的,这个时候是value不是标签,是一个横为1的值。主要是考虑到了拓展性,考虑到tfidf之类方法生成数来的离散化特征是有权重的,所以弄了value这个变量作为权重。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants