Machine learning 使用词向量的文本分类增强功能_Machine Learning_Scikit Learn_Text Classification_Gensim_Word2vec

Machine learning 使用词向量的文本分类增强功能

machine-learning scikit-learn

Machine learning 使用词向量的文本分类增强功能,machine-learning,scikit-learn,text-classification,gensim,word2vec,Machine Learning,Scikit Learn,Text Classification,Gensim,Word2vec,我正在使用文字向量进行文本分类解决方案。我使用词向量主要是为了解决同义词的情况，这些同义词不在训练集中，但将出现在实际用例中。通过简单地使用词向量，我在预测方面没有获得足够的准确度。有谁能建议我可以对单词向量进行一些增强以提高准确性吗？调试错误的预测案例。高质量的同义词嵌入（训练数据集中的同义词）会有帮助吗使用不同的嵌入，使用更大的词汇表进行培训，内容与应用程序类似，等等获取更多培训数据（标记为数据集）。这应该会有很大帮助。文本分类通常具有非常大的特征空间在训练文本分类器时，允许嵌入层“

我正在使用文字向量进行文本分类解决方案。我使用词向量主要是为了解决同义词的情况，这些同义词不在训练集中，但将出现在实际用例中。通过简单地使用词向量，我在预测方面没有获得足够的准确度。有谁能建议我可以对单词向量进行一些增强以提高准确性吗？

调试错误的预测案例。高质量的同义词嵌入（训练数据集中的同义词）会有帮助吗
使用不同的嵌入，使用更大的词汇表进行培训，内容与应用程序类似，等等
获取更多培训数据（标记为数据集）。这应该会有很大帮助。文本分类通常具有非常大的特征空间
在训练文本分类器时，允许嵌入层“可训练”。不要与word2vec培训混淆，它是为您的嵌入层获取预先学习的嵌入，并且它可能会使用大量未标记的数据。这里您使用的是一个相对较小的数据集，它只包含标记数据。允许嵌入层“可训练”意味着梯度可以从输出层反向传播到嵌入层，以微调嵌入向量

欢迎来到StackOverflow。请阅读并遵循帮助文档中的发布指南。在这里申请。我们可以处理特定的请求，但不能用模糊的描述。展示你的设计和使用；展示你得到的准确度，你期望的是什么，也许还有为什么你认为你的方法可以达到这种准确度。