Numpy y_检验上的不一致形状错误多标签二值化器，sklearn多标签分类_Numpy_Scikit Learn_Text Classification_Multilabel Classification

Numpy y_检验上的不一致形状错误多标签二值化器，sklearn多标签分类

numpy scikit-learn

Numpy y_检验上的不一致形状错误多标签二值化器，sklearn多标签分类,numpy,scikit-learn,text-classification,multilabel-classification,Numpy,Scikit Learn,Text Classification,Multilabel Classification,我似乎无法进行任何测量，因为Y_测试在使用多LabelBinarizer进行fit_变换后给出了不同的矩阵维数结果和错误： import numpy as np import pandas as pd from sklearn.pipeline import Pipeline from sklearn.feature_extraction.text import CountVectorizer from sklearn.svm import LinearSVC from sklearn.lin

我似乎无法进行任何测量，因为Y_测试在使用多LabelBinarizer进行fit_变换后给出了不同的矩阵维数

结果和错误：

import numpy as np
import pandas as pd
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.svm import LinearSVC
from sklearn.linear_model import SGDClassifier
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.multiclass import OneVsRestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.model_selection import train_test_split
from sklearn import preprocessing
from sklearn.svm import SVC

data = r'C:\Users\...\Downloads\news_v1.xlsx'

df = pd.read_excel(data)
df = pd.DataFrame(df.groupby(["id", "doc"]).label.apply(list)).reset_index()

X = np.array(df.doc)
y = np.array(df.label)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

mlb = preprocessing.MultiLabelBinarizer()
Y_train = mlb.fit_transform(y_train)

classifier = Pipeline([
('vectorizer', CountVectorizer()),
('tfidf', TfidfTransformer()),
('clf', OneVsRestClassifier(LinearSVC()))])

classifier.fit(X_train, Y_train)
predicted = classifier.predict(X_test)

Y_test = mlb.fit_transform(y_test)

print("Y_train: ", Y_train.shape)
print("Y_test: ", Y_test.shape)
print("Predicted: ", predicted.shape)
print("Accuracy Score: ", accuracy_score(Y_test, predicted))

您应该只对测试数据调用

transform（）

。切勿使用

fit（）

或其变体，如

fit\u transform（）

或

fit\u predict（）

等。它们只能用于训练数据

所以换句话：

Y\u测试=mlb.fit\u变换（Y\u测试）

到

Y\u测试=mlb.transform（Y\u测试）

说明：

当您调用

fit（）

或

fit\u transform（）

时，mlb将忘记其先前学习的数据，并学习新提供的数据。当

Y\u train

和

Y\u test

的标签可能与您的情况不同时，这可能会出现问题

在您的例子中，

Y\u train

有49种不同的标签，而

Y\u test

只有42种不同的标签。但这并不意味着Y_测试比Y_训练少7个标签。可能

Y\u test

可能有完全不同的标签集，二值化后会产生42列，这将影响结果。