Machine learning 如何减少n-gram特征？_Machine Learning_Nlp_Text Processing_Sentiment Analysis_N Gram

Machine learning 如何减少n-gram特征？

machine-learning nlp

Machine learning 如何减少n-gram特征？,machine-learning,nlp,text-processing,sentiment-analysis,n-gram,Machine Learning,Nlp,Text Processing,Sentiment Analysis,N Gram,我一直在处理文本处理中的一个问题。如果有人能帮助我，我将不胜感激。我有12000条评论记录。当我在上面运行n-gram提取器时，我获得了170000个唯一的unigram+bigram，这是如此之多，以至于机器学习算法需要花费太长的时间来处理我应该如何减少这些提取特征的数量？有什么特别的算法吗？没有必要保留所有的N-GRAM。你应该按频率调整N克的列表。例如，只考虑出现40次或更多次的单元格。修剪双克的截止值将更低。对于三克，它会更低，等等

我一直在处理文本处理中的一个问题。如果有人能帮助我，我将不胜感激。我有12000条评论记录。当我在上面运行n-gram提取器时，我获得了170000个唯一的unigram+bigram，这是如此之多，以至于机器学习算法需要花费太长的时间来处理

我应该如何减少这些提取特征的数量？有什么特别的算法吗？

没有必要保留所有的N-GRAM。你应该按频率调整N克的列表。例如，只考虑出现40次或更多次的单元格。修剪双克的截止值将更低。对于三克，它会更低，等等