Machine learning CountVectorizer多项式NB值错误：维数不匹配_Machine Learning_Scikit Learn_Naivebayes_Multinomial_Countvectorizer

Machine learning CountVectorizer多项式NB值错误：维数不匹配

machine-learning scikit-learn

Machine learning CountVectorizer多项式NB值错误：维数不匹配,machine-learning,scikit-learn,naivebayes,multinomial,countvectorizer,Machine Learning,Scikit Learn,Naivebayes,Multinomial,Countvectorizer,我正在努力使我的多项式B起作用。我在训练集和测试集中使用CountVectorizer，当然两个集合中都有不同的单词。我明白了，为什么会有错误 ValueError: dimension mismatch 发生，但我不知道如何修复它。我尝试了CountVectorizer（）.transform而不是CountVectorizer（）.fit_transform，正如在另一篇文章（）中建议的那样，但这只会让我 NotFittedError: CountVectorizer - Vocabula

我正在努力使我的多项式B起作用。我在训练集和测试集中使用CountVectorizer，当然两个集合中都有不同的单词。我明白了，为什么会有错误

ValueError: dimension mismatch

发生，但我不知道如何修复它。我尝试了

CountVectorizer（）.transform

而不是

CountVectorizer（）.fit_transform

，正如在另一篇文章（）中建议的那样，但这只会让我

NotFittedError: CountVectorizer - Vocabulary wasn't fitted.

如何正确使用CountVectorizer

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.cross_validation import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report
import sklearn.feature_extraction

df = data
y = df["meal_parent_category"]
X = df['name_cleaned']
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3)
X_train = CountVectorizer().fit_transform(X_train)
X_test = CountVectorizer().fit_transform(X_test)
algo = MultinomialNB()
algo.fit(X_train,y_train)
y = algo.predict(X_test)
print(classification_report(y_test,y_pred))

好的，在问了这个问题之后，我明白了：）以下是解决方案，包括词汇表等：

df = train
y = df["meal_parent_category_cleaned"]
X = df['name_cleaned']
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3)
vectorizer_train = CountVectorizer()
X_train = vectorizer_train.fit_transform(X_train)
vectorizer_test = CountVectorizer(vocabulary=vectorizer_train.vocabulary_)
X_test = vectorizer_test.transform(X_test)
algo = MultinomialNB()
algo.fit(X_train,y_train)
y_pred = algo.predict(X_test)
print(classification_report(y_test,y_pred))

你可以使用

X\u test=vectorizer\u train.transform（X\u test）

，而不是定义一个新的。哦，我不知道。谢谢：）