Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/284.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 对列车和测试数据帧使用相同的标签编码器_Python_Machine Learning_Scikit Learn_Label Encoding - Fatal编程技术网

Python 对列车和测试数据帧使用相同的标签编码器

Python 对列车和测试数据帧使用相同的标签编码器,python,machine-learning,scikit-learn,label-encoding,Python,Machine Learning,Scikit Learn,Label Encoding,我有两个不同的csv,其中包含列车数据和测试数据。我从这些train_features_df和test_features_df创建了两个不同的数据帧。请注意,测试和训练数据有多个分类列,因此我需要对它们应用labelEncoder,因为它适合我的数据集。所以我在列车和测试数据上分别应用了标签编码器。当我打印列车和测试数据集的新编码值时,我看到对于相同特征的相同分类值,新编码数据的输出是不同的。这是否意味着我必须合并列车和测试数据。然后应用标签编码,然后再次将它们分开 from sklearn.

我有两个不同的csv,其中包含列车数据和测试数据。我从这些train_features_df和test_features_df创建了两个不同的数据帧。请注意,测试和训练数据有多个分类列,因此我需要对它们应用labelEncoder,因为它适合我的数据集。所以我在列车和测试数据上分别应用了标签编码器。当我打印列车和测试数据集的新编码值时,我看到对于相同特征的相同分类值,新编码数据的输出是不同的。这是否意味着我必须合并列车和测试数据。然后应用标签编码,然后再次将它们分开

 from sklearn.preprocessing import LabelEncoder
 target=train_features_df['y']
 train_features_df=train_features_df.drop(['y'], axis=1)
 train_features_df.head()
 y = target.values
 print("printing feature column of train datasets: \n")
 print(train_features_df.values)
 le=LabelEncoder()
 X_train_label_encoded=train_features_df.apply(le.fit_transform)
 print("\n printing feature column of train datasets after label encoder: \n")
 print(X_train_label_encoded.head())

 print("printing test feature datasets: \n")
 print(test_features_df)
 X_test_label_encoded=test_features_df.apply(le.fit_transform)
 print("printing test feature encoded  datasets: \n")
 print(X_test_label_encoded)
以上结果如下:-

printing feature column of train datasets: 

[['k' 'v' 'at' ... 0 0 0]
 ['k' 't' 'av' ... 0 0 0]
 ['az' 'w' 'n' ... 0 0 0]

    X0  X1  X2  X3  X4  X5  X6  X8  X10  X12  ...  X375  X376  X377  X378  \
 0  32  23  17   0   3  24   9  14    0    0  ...     0     0     1     0   
 1  32  21  19   4   3  28  11  14    0    0  ...     1     0     0     0   
 2  20  24  34   2   3  27   9  23    0    0  ...     0     0     0     0

 printing test feature datasets: 

       X0  X1  X2 X3 X4  X5 X6 X8  X10  X12  ...  X375  X376  X377  X378  X379  \
 0     az   v   n  f  d   t  a  w    0    0  ...     0     0     0     1     0   
 1      t   b  ai  a  d   b  g  y    0    0  ...     0     0     1     0     0   
 2     az   v  as  f  d   a  j  j    0    0  ...     0     0     0     1     0

       X0  X1  X2  X3  X4  X5  X6  X8  X10  X12  ...  X375  X376  X377  X378  \
 0     21  23  34   5   3  26   0  22    0    0  ...     0     0     0     1   
 1     42   3   8   0   3   9   6  24    0    0  ...     0     0     1     0   
 2     21  23  17   5   3   0   9   9    0    0  ...     0     0     0     1   
 3     21  13  34   5   3  31  11  13    0    0  ...     0     0     0     1   
 4     45  20  17   2   3  30   8  12    0    0  ...     1     0     0     0

如果我们看到在lebel编码后的列车数据帧中,第一列中的
az
值被转换为值20,而在lebel编码后的测试数据帧中,第一列中的
az
值被转换为值21。

可能是培训和测试集中出现的唯一值不同。在这种情况下,编码也会有所不同

from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
le.fit_transform([1,2,3,4,5])
# array([0, 1, 2, 3, 4], dtype=int64)
le.fit_transform([2,3,4,5])
# array([0, 1, 2, 3], dtype=int64)
您应该对列车数据进行拟合,然后对测试数据进行
变换
,以获得相同的编码:

l_train = [1,2,3,4,5]
le.fit(l_train)
le.transform(l_train)
# array([0, 1, 2, 3, 4], dtype=int64)
le.transform([2,3,4,5])
#array([1, 2, 3, 4], dtype=int64)

但请注意,不应为分类功能使用标签编码器。有关原因的解释,请参阅<代码>标签编码只能在标签上使用。例如,您应该查看
OneHotEncoder

在这种情况下,如何以及在何处看到包含所有列的最终数据帧以及最终编码值?我试着在下面做,得到的错误是y应该是1d数组,得到的是形状数组(4209364)。它不占用整个数据帧吗?le=LabelEncoder()le.fit(train_features_df)le.transform(train_features_df)它需要一个1d数组,因为正如我告诉你的,这是为标签列考虑的,即一个单列,而不是多个features@invicustid答案帮助?别忘了你可以投票并接受答案。看,谢谢!