Machine learning 如何减少n-gram特征?

Machine learning 如何减少n-gram特征?,machine-learning,nlp,text-processing,sentiment-analysis,n-gram,Machine Learning,Nlp,Text Processing,Sentiment Analysis,N Gram,我一直在处理文本处理中的一个问题。如果有人能帮助我,我将不胜感激。 我有12000条评论记录。 当我在上面运行n-gram提取器时,我获得了170000个唯一的unigram+bigram,这是如此之多,以至于机器学习算法需要花费太长的时间来处理 我应该如何减少这些提取特征的数量?有什么特别的算法吗?没有必要保留所有的N-GRAM。你应该按频率调整N克的列表。例如,只考虑出现40次或更多次的单元格。修剪双克的截止值将更低。对于三克,它会更低,等等

我一直在处理文本处理中的一个问题。如果有人能帮助我,我将不胜感激。 我有12000条评论记录。 当我在上面运行n-gram提取器时,我获得了170000个唯一的unigram+bigram,这是如此之多,以至于机器学习算法需要花费太长的时间来处理


我应该如何减少这些提取特征的数量?有什么特别的算法吗?

没有必要保留所有的N-GRAM。你应该按频率调整N克的列表。例如,只考虑出现40次或更多次的单元格。修剪双克的截止值将更低。对于三克,它会更低,等等