Python 创建自定义标记器

Python 创建自定义标记器,python,tokenize,countvectorizer,nltokenizer,snowball-stemmer,Python,Tokenize,Countvectorizer,Nltokenizer,Snowball Stemmer,我必须使用CountVectorizer()创建一个自定义标记器,它将执行以下操作: 使用nltk中的word_标记器将文本拆分为标记 从nltk.corpus.stopwords('俄语')中删除带有标点符号、数字和标记的标记 使用SnowballStemmer进行冲压 只有在更改计数向量器中的参数时才能执行此任务吗 我想编一本字典,但我认为有一种方法可以使它更容易 我的尝试: def custom_token(): noise = stopwords.words('russian')

我必须使用
CountVectorizer()
创建一个自定义标记器,它将执行以下操作:

  • 使用nltk中的word_标记器将文本拆分为标记
  • nltk.corpus.stopwords('俄语')中删除带有标点符号、数字和标记的标记
  • 使用
    SnowballStemmer进行冲压
  • 只有在更改计数向量器中的参数时才能执行此任务吗

    我想编一本字典,但我认为有一种方法可以使它更容易

    我的尝试:

    def custom_token():
        noise = stopwords.words('russian') + list(punctuation) + ??? (what should i take as numerals?)
        return CountVectorizer(ngram_range=(1, 1), lowercase = True, tokenizer = word_tokenize, 
                              stop_words = noise, analyzer = 'word',  )