Machine learning 使用词向量的文本分类增强功能

Machine learning 使用词向量的文本分类增强功能,machine-learning,scikit-learn,text-classification,gensim,word2vec,Machine Learning,Scikit Learn,Text Classification,Gensim,Word2vec,我正在使用文字向量进行文本分类解决方案。我使用词向量主要是为了解决同义词的情况,这些同义词不在训练集中,但将出现在实际用例中。通过简单地使用词向量,我在预测方面没有获得足够的准确度。有谁能建议我可以对单词向量进行一些增强以提高准确性吗? 调试错误的预测案例。高质量的同义词嵌入(训练数据集中的同义词)会有帮助吗 使用不同的嵌入,使用更大的词汇表进行培训,内容与应用程序类似,等等 获取更多培训数据(标记为数据集)。这应该会有很大帮助。文本分类通常具有非常大的特征空间 在训练文本分类器时,允许嵌入层“

我正在使用文字向量进行文本分类解决方案。我使用词向量主要是为了解决同义词的情况,这些同义词不在训练集中,但将出现在实际用例中。通过简单地使用词向量,我在预测方面没有获得足够的准确度。有谁能建议我可以对单词向量进行一些增强以提高准确性吗?

  • 调试错误的预测案例。高质量的同义词嵌入(训练数据集中的同义词)会有帮助吗

  • 使用不同的嵌入,使用更大的词汇表进行培训,内容与应用程序类似,等等

  • 获取更多培训数据(标记为数据集)。这应该会有很大帮助。文本分类通常具有非常大的特征空间

  • 在训练文本分类器时,允许嵌入层“可训练”。不要与word2vec培训混淆,它是为您的嵌入层获取预先学习的嵌入,并且它可能会使用大量未标记的数据。这里您使用的是一个相对较小的数据集,它只包含标记数据。允许嵌入层“可训练”意味着梯度可以从输出层反向传播到嵌入层,以微调嵌入向量


欢迎来到StackOverflow。请阅读并遵循帮助文档中的发布指南。在这里申请。我们可以处理特定的请求,但不能用模糊的描述。展示你的设计和使用;展示你得到的准确度,你期望的是什么,也许还有为什么你认为你的方法可以达到这种准确度。