Python 2.7 如何将一组文档标记为unigram+；使用gensim的bigram BagofWord？_Python 2.7_Scikit Learn_Gensim

Python 2.7 如何将一组文档标记为unigram+；使用gensim的bigram BagofWord？

python-2.7 scikit-learn

Python 2.7 如何将一组文档标记为unigram+；使用gensim的bigram BagofWord？,python-2.7,scikit-learn,gensim,Python 2.7,Scikit Learn,Gensim,我知道通过使用scikit，我可以 vectorizer = TfidfVectorizer(min_df=2,ngram_range=(1, 2),norm='l2') corpus = vectorizer.fit_transform(text) 这段代码。但是我怎样才能用gensim做到这一点呢？我想你可以看看UTIL的简单预处理 gensim.utils.simple\u预处理（doc，deacc=False，min\u len=2， max_len=15）将文档转换为令牌列表这将

我知道通过使用scikit，我可以

vectorizer = TfidfVectorizer(min_df=2,ngram_range=(1, 2),norm='l2')

corpus = vectorizer.fit_transform(text)

这段代码。但是我怎样才能用gensim做到这一点呢？

我想你可以看看UTIL的简单预处理

gensim.utils.simple\u预处理（doc，deacc=False，min\u len=2， max_len=15）将文档转换为令牌列表

这将小写、标记化、去重音（可选）输出是决赛

tokens=unicode字符串，不再进行进一步处理。

使用

nltk

的

everygrams

函数是一种很好的方法

from nltk import everygrams

text = 'I like playing baseball'
grams = ['_'.join(grams) for grams in list(everygrams(text, 1, 2))]
grams

>> ['I', 'like', 'playing', 'baseball', 'I_like', 'like_playing', 'playing_baseball']

这将在文本中创建所有uni和BIGRAM