Machine learning 使用word2vec编码分类特征是个好主意吗?
我面临着一个二进制预测任务,有一系列的特性,它们都是分类的。因此,一个关键的挑战是将这些分类特征编码为数字,我一直在寻找聪明的方法。 我无意中发现了word2vec,它主要用于NLP,但我想知道是否可以用它来编码我的变量,也就是说,只需将神经网络的权重作为编码特征 然而,我不确定这是否是一个好主意,因为在我的例子中,作为word2vec输入功能的上下文词或多或少是随机的,而word2vec最初是为真实句子设计的Machine learning 使用word2vec编码分类特征是个好主意吗?,machine-learning,nlp,word2vec,categorical-data,feature-engineering,Machine Learning,Nlp,Word2vec,Categorical Data,Feature Engineering,我面临着一个二进制预测任务,有一系列的特性,它们都是分类的。因此,一个关键的挑战是将这些分类特征编码为数字,我一直在寻找聪明的方法。 我无意中发现了word2vec,它主要用于NLP,但我想知道是否可以用它来编码我的变量,也就是说,只需将神经网络的权重作为编码特征 然而,我不确定这是否是一个好主意,因为在我的例子中,作为word2vec输入功能的上下文词或多或少是随机的,而word2vec最初是为真实句子设计的 你们对此有什么建议、想法和建议吗?如果你们正在寻找一种方法来利用分类变量的嵌入,你们
你们对此有什么建议、想法和建议吗?如果你们正在寻找一种方法来利用分类变量的嵌入,你们应该研究实体嵌入
- 谷歌在这方面有一个很好的速成课程:
- 这是一篇关于arxiv的优秀论文,由一个来自Kaggle竞赛的团队撰写:
窗口(因此单个“文本”中的所有单词都在彼此的上下文中)可能值得考虑
Python的最新版本gensim
Word2Vec
允许更改名为ns_index
的参数,在许多早期实现中,该参数固定为0.75
,但至少有一篇论文指出,对于某些语料库数据和类似推荐的应用程序,该值可能与该值相差很远 谢谢你的回复。您是否偶然想起一篇使用word2vec作为编码策略的论文?