Scikit learn TF-IDF停止字不会多次删除_Scikit Learn_Stop Words_Tfidfvectorizer

Scikit learn TF-IDF停止字不会多次删除

scikit-learn

Scikit learn TF-IDF停止字不会多次删除,scikit-learn,stop-words,tfidfvectorizer,Scikit Learn,Stop Words,Tfidfvectorizer,我试图用Tfidf删除自定义的停止词，但是尽管使用了不同的方法，我定义的停止词并没有被删除多次——看起来它们只被删除了一次 stop_words = ["er","sie","es","sehr", "geehrte","geehrter","herr","frau","ihre","ihrem","ihren","der","die", "das","viele", "gruesse","gruessen","mit", "von", "auf", "unter","ab", "fuer",

我试图用Tfidf删除自定义的停止词，但是尽管使用了不同的方法，我定义的停止词并没有被删除多次——看起来它们只被删除了一次

stop_words = ["er","sie","es","sehr", "geehrte","geehrter","herr","frau","ihre","ihrem","ihren","der","die", "das","viele", "gruesse","gruessen","mit", "von", "auf", "unter","ab", "fuer", "von", "gmbh", "und", "oder","email", "am", "ist","nicht", "wir", "hiermit", "unser", "unsere", "unseren","ohne", "bitten", "uns", "bis", "zur","am","bei", "des", "dessen", "deren", "dem", "nach","zu", "eines", "einen", "einer", "einem", "dies", "des", "den", "dank", "wurde", "wird", "war", "sein","in", "als", "gerne", "gerne", "wieder","welcher", "welche", "welchem","welchen","welches", "hat","hatte","freundlich", "freundliche", "freundlichen", "freundliches", "wenn", "wuerden", "durch"]

vectorizer = TfidfVectorizer(ngram_range=[1,1], stop_words=stop_words)
X_text_set = vectorizer.fit_transform(X_text_set)

以下是不使用Stopwords的结果：

y_train_text size:(1872,)
y_val_text size:(401,)
y_test_text size:(402,)
X_train_text size:(1872, 35941)
X_val_text size:(401, 35941)
X_test_text size:(402, 35941)

以下是使用stopwords后的结果：

y_train_text size:(1872,)
y_val_text size:(401,)
y_test_text size:(402,)
X_train_text size:(1872, 35867)
X_val_text size:(401, 35867)
X_test_text size:(402, 35867)

如您所见，每个单词只删除一次。由于这些都是常见的词语，我希望数百次出现的情况被删除

谁能帮帮我吗