Machine learning 当文本中的单词不经常重复时,如何准备用于文本分类的特征向量?

Machine learning 当文本中的单词不经常重复时,如何准备用于文本分类的特征向量?,machine-learning,nlp,text-mining,information-retrieval,stemming,Machine Learning,Nlp,Text Mining,Information Retrieval,Stemming,我需要对一组电子邮件执行文本分类。但我文本中的所有单词都非常稀疏,即每个单词相对于所有文档的频率都非常低。单词不会经常重复。由于要训练分类器,我认为以频率作为权重的文档术语矩阵是不合适的。你能告诉我我还需要用什么样的方法吗 谢谢真正的问题是,如果你的单词如此稀疏,那么学习的分类器将无法推广到真实世界的数据。然而,有几种解决方案 1.)使用更多数据。这是一个很简单的问题。但是,您不仅可以添加标记数据,还可以在半监督学习中使用未标记数据 2.)使用更多数据(b部分)。您可以查看迁移学习设置。在这里,

我需要对一组电子邮件执行文本分类。但我文本中的所有单词都非常稀疏,即每个单词相对于所有文档的频率都非常低。单词不会经常重复。由于要训练分类器,我认为以频率作为权重的文档术语矩阵是不合适的。你能告诉我我还需要用什么样的方法吗


谢谢

真正的问题是,如果你的单词如此稀疏,那么学习的分类器将无法推广到真实世界的数据。然而,有几种解决方案

1.)使用更多数据。这是一个很简单的问题。但是,您不仅可以添加标记数据,还可以在半监督学习中使用未标记数据

2.)使用更多数据(b部分)。您可以查看迁移学习设置。在这里,您可以在具有类似特征的大型数据集上构建分类器。这可能是twitter流,然后根据您的域调整此分类器

3.)正确使用处理管道。您的问题可能源于次优的处理管道。您正在进行词干分析?在电子邮件中,steming一词应该映射到stem上。通过与词典进行同义词匹配,可以进一步推动这一点