python标记器2字短语到word2vec模型_Python_Nltk_Tokenize

python标记器2字短语到word2vec模型

python

python标记器2字短语到word2vec模型,python,nltk,tokenize,Python,Nltk,Tokenize,我正在为word2vec使用python gensim包我想在标记化单词和两个单词短语上运行该模型。我有10000个文档，我使用nltk regknizer从所有文档中获取单个单词标记。如何标记文档以同时获得2个单词的短语例如：文件：“我有一个绿苹果” 还有两个词：{I_have}，{green_apple}。。。等等。一个选项是使用nltk中的ngrams，并像这样设置n=2以获得元组列表： from nltk import ngrams n = 2 bigram_list = lis

我正在为word2vec使用python gensim包

我想在标记化单词和两个单词短语上运行该模型。我有10000个文档，我使用nltk regknizer从所有文档中获取单个单词标记。如何标记文档以同时获得2个单词的短语

例如：

文件：“我有一个绿苹果”

还有两个词：{I_have}，{green_apple}。。。等等。

一个选项是使用

nltk

中的

ngrams

，并像这样设置n=2以获得元组列表：

from nltk import ngrams
n = 2
bigram_list = list(ngrams(document.split(), n))