Python 创建自定义标记器
我必须使用Python 创建自定义标记器,python,tokenize,countvectorizer,nltokenizer,snowball-stemmer,Python,Tokenize,Countvectorizer,Nltokenizer,Snowball Stemmer,我必须使用CountVectorizer()创建一个自定义标记器,它将执行以下操作: 使用nltk中的word_标记器将文本拆分为标记 从nltk.corpus.stopwords('俄语')中删除带有标点符号、数字和标记的标记 使用SnowballStemmer进行冲压 只有在更改计数向量器中的参数时才能执行此任务吗 我想编一本字典,但我认为有一种方法可以使它更容易 我的尝试: def custom_token(): noise = stopwords.words('russian')
CountVectorizer()
创建一个自定义标记器,它将执行以下操作:
nltk.corpus.stopwords('俄语')中删除带有标点符号、数字和标记的标记
SnowballStemmer进行冲压
def custom_token():
noise = stopwords.words('russian') + list(punctuation) + ??? (what should i take as numerals?)
return CountVectorizer(ngram_range=(1, 1), lowercase = True, tokenizer = word_tokenize,
stop_words = noise, analyzer = 'word', )