Python 作为ML NLP文本分析预测输入的多个特征_Python_Scikit Learn

Python 作为ML NLP文本分析预测输入的多个特征

python scikit-learn

Python 作为ML NLP文本分析预测输入的多个特征,python,scikit-learn,Python,Scikit Learn,我有8列作为输入，1列作为输出来预测。在尝试安装countvectorizer和tfidf时，我得到了 ValueError: Found input variables with inconsistent numbers of samples: [7, 23752] 但是X\u train.shape和X.shape是正确的，那么当我应用fit\u变换时，为什么会出现这个错误代码 CountVectorizer应用于字符串，而不是NumPy数组 TfidfTransformer将在Cou

我有8列作为输入，1列作为输出来预测。在尝试安装countvectorizer和tfidf时，我得到了

ValueError: Found input variables with inconsistent numbers of samples: [7, 23752]

但是

X\u train.shape

和

X.shape

是正确的，那么当我应用fit\u变换时，为什么会出现这个错误

代码

CountVectorizer应用于字符串，而不是NumPy数组

TfidfTransformer将在CountVectorizer count matrix上工作，因为您的管道没有意义，您还缺少参数

由于已经有了numpy数组表示，只需直接安装NB分类器即可

X_train, X_test, y_train, y_test = train_test_split(df[['A','B','C',
                                                   'D','E','F',
                                                   'G']], df.final, test_size=0.2, 
random_state = 42)

from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB()
clf.fit(X_train, y_train)

CountVectorizer应用于字符串，而不是NumPy数组

TfidfTransformer将在CountVectorizer count matrix上工作，因为您的管道没有意义，您还缺少参数

由于已经有了numpy数组表示，只需直接安装NB分类器即可

X_train, X_test, y_train, y_test = train_test_split(df[['A','B','C',
                                                   'D','E','F',
                                                   'G']], df.final, test_size=0.2, 
random_state = 42)

from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB()
clf.fit(X_train, y_train)

你能打印形状吗？打印（df.shape）能打印形状吗？打印（df.shape）能打印形状吗我用上面提到的方法做了，但现在我得到了：-值错误：无法将字符串转换为浮点：似乎我需要使用。适合将所有字符串转换为数字。请建议。是否可以打印X_列[0]和y_列[0]？打印（X_列[0]）是抛出关键错误。X_train.head（1）正在打印第一行数据，全部为文本。请添加X_train.head（）和y_train.head（）的示例为了让我理解您的结构。我采用了上述方法，但现在我得到：-ValueError:无法将字符串转换为浮点：似乎我需要使用。fit将所有字符串转换为数字。请建议。您可以打印X_列[0]和y_列[0]吗？打印（X_列[0]）抛出关键错误。X_train.head（1）正在打印第一行数据，全部为文本。请添加X_train.head（）和y_train.head（）的示例，以便我了解您的结构。