Python 作为ML NLP文本分析预测输入的多个特征

Python 作为ML NLP文本分析预测输入的多个特征,python,scikit-learn,Python,Scikit Learn,我有8列作为输入,1列作为输出来预测。在尝试安装countvectorizer和tfidf时,我得到了 ValueError: Found input variables with inconsistent numbers of samples: [7, 23752] 但是X\u train.shape和X.shape是正确的,那么当我应用fit\u变换时,为什么会出现这个错误 代码 CountVectorizer应用于字符串,而不是NumPy数组 TfidfTransformer将在Cou

我有8列作为输入,1列作为输出来预测。在尝试安装countvectorizer和tfidf时,我得到了

ValueError: Found input variables with inconsistent numbers of samples: [7, 23752]
但是
X\u train.shape
X.shape
是正确的,那么当我应用fit\u变换时,为什么会出现这个错误

代码


CountVectorizer应用于字符串,而不是NumPy数组

TfidfTransformer将在CountVectorizer count matrix上工作,因为您的管道没有意义,您还缺少参数

由于已经有了numpy数组表示,只需直接安装NB分类器即可

X_train, X_test, y_train, y_test = train_test_split(df[['A','B','C',
                                                   'D','E','F',
                                                   'G']], df.final, test_size=0.2, 
random_state = 42)

from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB()
clf.fit(X_train, y_train)

CountVectorizer应用于字符串,而不是NumPy数组

TfidfTransformer将在CountVectorizer count matrix上工作,因为您的管道没有意义,您还缺少参数

由于已经有了numpy数组表示,只需直接安装NB分类器即可

X_train, X_test, y_train, y_test = train_test_split(df[['A','B','C',
                                                   'D','E','F',
                                                   'G']], df.final, test_size=0.2, 
random_state = 42)

from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB()
clf.fit(X_train, y_train)

你能打印形状吗?打印(df.shape)能打印形状吗?打印(df.shape)能打印形状吗我用上面提到的方法做了,但现在我得到了:-值错误:无法将字符串转换为浮点:似乎我需要使用。适合将所有字符串转换为数字。请建议。是否可以打印X_列[0]和y_列[0]?打印(X_列[0])是抛出关键错误。X_train.head(1)正在打印第一行数据,全部为文本。请添加X_train.head()和y_train.head()的示例为了让我理解您的结构。我采用了上述方法,但现在我得到:-ValueError:无法将字符串转换为浮点:似乎我需要使用。fit将所有字符串转换为数字。请建议。您可以打印X_列[0]和y_列[0]吗?打印(X_列[0])抛出关键错误。X_train.head(1)正在打印第一行数据,全部为文本。请添加X_train.head()和y_train.head()的示例,以便我了解您的结构。