Python 对列车和测试数据帧使用相同的标签编码器
我有两个不同的csv,其中包含列车数据和测试数据。我从这些train_features_df和test_features_df创建了两个不同的数据帧。请注意,测试和训练数据有多个分类列,因此我需要对它们应用labelEncoder,因为它适合我的数据集。所以我在列车和测试数据上分别应用了标签编码器。当我打印列车和测试数据集的新编码值时,我看到对于相同特征的相同分类值,新编码数据的输出是不同的。这是否意味着我必须合并列车和测试数据。然后应用标签编码,然后再次将它们分开Python 对列车和测试数据帧使用相同的标签编码器,python,machine-learning,scikit-learn,label-encoding,Python,Machine Learning,Scikit Learn,Label Encoding,我有两个不同的csv,其中包含列车数据和测试数据。我从这些train_features_df和test_features_df创建了两个不同的数据帧。请注意,测试和训练数据有多个分类列,因此我需要对它们应用labelEncoder,因为它适合我的数据集。所以我在列车和测试数据上分别应用了标签编码器。当我打印列车和测试数据集的新编码值时,我看到对于相同特征的相同分类值,新编码数据的输出是不同的。这是否意味着我必须合并列车和测试数据。然后应用标签编码,然后再次将它们分开 from sklearn.
from sklearn.preprocessing import LabelEncoder
target=train_features_df['y']
train_features_df=train_features_df.drop(['y'], axis=1)
train_features_df.head()
y = target.values
print("printing feature column of train datasets: \n")
print(train_features_df.values)
le=LabelEncoder()
X_train_label_encoded=train_features_df.apply(le.fit_transform)
print("\n printing feature column of train datasets after label encoder: \n")
print(X_train_label_encoded.head())
print("printing test feature datasets: \n")
print(test_features_df)
X_test_label_encoded=test_features_df.apply(le.fit_transform)
print("printing test feature encoded datasets: \n")
print(X_test_label_encoded)
以上结果如下:-
printing feature column of train datasets:
[['k' 'v' 'at' ... 0 0 0]
['k' 't' 'av' ... 0 0 0]
['az' 'w' 'n' ... 0 0 0]
X0 X1 X2 X3 X4 X5 X6 X8 X10 X12 ... X375 X376 X377 X378 \
0 32 23 17 0 3 24 9 14 0 0 ... 0 0 1 0
1 32 21 19 4 3 28 11 14 0 0 ... 1 0 0 0
2 20 24 34 2 3 27 9 23 0 0 ... 0 0 0 0
printing test feature datasets:
X0 X1 X2 X3 X4 X5 X6 X8 X10 X12 ... X375 X376 X377 X378 X379 \
0 az v n f d t a w 0 0 ... 0 0 0 1 0
1 t b ai a d b g y 0 0 ... 0 0 1 0 0
2 az v as f d a j j 0 0 ... 0 0 0 1 0
X0 X1 X2 X3 X4 X5 X6 X8 X10 X12 ... X375 X376 X377 X378 \
0 21 23 34 5 3 26 0 22 0 0 ... 0 0 0 1
1 42 3 8 0 3 9 6 24 0 0 ... 0 0 1 0
2 21 23 17 5 3 0 9 9 0 0 ... 0 0 0 1
3 21 13 34 5 3 31 11 13 0 0 ... 0 0 0 1
4 45 20 17 2 3 30 8 12 0 0 ... 1 0 0 0
如果我们看到在lebel编码后的列车数据帧中,第一列中的
az
值被转换为值20,而在lebel编码后的测试数据帧中,第一列中的az
值被转换为值21。可能是培训和测试集中出现的唯一值不同。在这种情况下,编码也会有所不同
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
le.fit_transform([1,2,3,4,5])
# array([0, 1, 2, 3, 4], dtype=int64)
le.fit_transform([2,3,4,5])
# array([0, 1, 2, 3], dtype=int64)
您应该对列车数据进行拟合,然后对测试数据进行变换
,以获得相同的编码:
l_train = [1,2,3,4,5]
le.fit(l_train)
le.transform(l_train)
# array([0, 1, 2, 3, 4], dtype=int64)
le.transform([2,3,4,5])
#array([1, 2, 3, 4], dtype=int64)
但请注意,不应为分类功能使用标签编码器。有关原因的解释,请参阅<代码>标签编码只能在标签上使用。例如,您应该查看
OneHotEncoder
。在这种情况下,如何以及在何处看到包含所有列的最终数据帧以及最终编码值?我试着在下面做,得到的错误是y应该是1d数组,得到的是形状数组(4209364)。它不占用整个数据帧吗?le=LabelEncoder()le.fit(train_features_df)le.transform(train_features_df)它需要一个1d数组,因为正如我告诉你的,这是为标签列考虑的,即一个单列,而不是多个features@invicustid答案帮助?别忘了你可以投票并接受答案。看,谢谢!