python标记器2字短语到word2vec模型

python标记器2字短语到word2vec模型,python,nltk,tokenize,Python,Nltk,Tokenize,我正在为word2vec使用python gensim包 我想在标记化单词和两个单词短语上运行该模型。我有10000个文档,我使用nltk regknizer从所有文档中获取单个单词标记。 如何标记文档以同时获得2个单词的短语 例如: 文件:“我有一个绿苹果” 还有两个词:{I_have},{green_apple}。。。等等。一个选项是使用nltk中的ngrams,并像这样设置n=2以获得元组列表: from nltk import ngrams n = 2 bigram_list = lis

我正在为word2vec使用python gensim包

我想在标记化单词和两个单词短语上运行该模型。我有10000个文档,我使用nltk regknizer从所有文档中获取单个单词标记。 如何标记文档以同时获得2个单词的短语

例如:

文件:“我有一个绿苹果”


还有两个词:{I_have},{green_apple}。。。等等。

一个选项是使用
nltk
中的
ngrams
,并像这样设置n=2以获得元组列表:

from nltk import ngrams
n = 2
bigram_list = list(ngrams(document.split(), n))