python标记器2字短语到word2vec模型
我正在为word2vec使用python gensim包 我想在标记化单词和两个单词短语上运行该模型。我有10000个文档,我使用nltk regknizer从所有文档中获取单个单词标记。 如何标记文档以同时获得2个单词的短语 例如: 文件:“我有一个绿苹果”python标记器2字短语到word2vec模型,python,nltk,tokenize,Python,Nltk,Tokenize,我正在为word2vec使用python gensim包 我想在标记化单词和两个单词短语上运行该模型。我有10000个文档,我使用nltk regknizer从所有文档中获取单个单词标记。 如何标记文档以同时获得2个单词的短语 例如: 文件:“我有一个绿苹果” 还有两个词:{I_have},{green_apple}。。。等等。一个选项是使用nltk中的ngrams,并像这样设置n=2以获得元组列表: from nltk import ngrams n = 2 bigram_list = lis
还有两个词:{I_have},{green_apple}。。。等等。一个选项是使用
nltk
中的ngrams
,并像这样设置n=2以获得元组列表:
from nltk import ngrams
n = 2
bigram_list = list(ngrams(document.split(), n))