Python 当多个列包含相同的值时，如何对大型数据帧进行热编码？_Python_Pandas_One Hot Encoding

Python 当多个列包含相同的值时，如何对大型数据帧进行热编码？

python pandas

Python 当多个列包含相同的值时，如何对大型数据帧进行热编码？,python,pandas,one-hot-encoding,Python,Pandas,One Hot Encoding,这个标题基本上抓住了我的问题我有一个数据帧，多个列都有值，比如[0,1]，如果我去对df进行一个热编码，我会有多个同名列繁琐的解决方案是手动创建唯一的列，但我有58个列是分类的，所以这似乎不是很有效我不确定这是否有用，但这是我的数据帧的head（） x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 ... z217 z218 z219 z220 z221 z222 subject phase state output

这个标题基本上抓住了我的问题

我有一个数据帧，多个列都有值，比如

[0,1]

，如果我去对df进行一个热编码，我会有多个同名列

繁琐的解决方案是手动创建唯一的列，但我有58个列是分类的，所以这似乎不是很有效

我不确定这是否有用，但这是我的数据帧的

head（）

x2  x3  x4  x5  x6  x7  x8  x9  x10 x11 ... z217    z218    z219    z220    z221    z222    subject phase   state   output
0   0   0   1   -300.361218 0.886360    -2.590886   225.001899  0.006204    0.000037    -0.000013   ... 0.005242    0.024971    -1017.620978    -382.850838 -48.275711  -2.040336   A   3   B   0
1   0   0   1   -297.126090 0.622211    -3.960940   220.179017  0.006167    -0.000014   -0.000003   ... 0.001722    0.023595    91.229094   24.802230   1.783950    0.022620    A   3   C   0
2   0   0   1   -236.460253 0.423640    -12.656341  139.453445  0.006276    -0.000028   0.000022    ... -0.010894   -0.036318   -188.232347 -17.474861  -1.005571   -0.021628   A   3   B   0
3   0   0   1   33.411458   2.854415    -1.962432   3.208911    0.009752    -0.000273   -0.000024   ... -0.034184   -0.047734   185.122907  -549.282067 542.193381  -178.049926 A   3   A   0
4   0   0   1   -118.125214 2.009809    -3.291637   34.874176   0.007598    0.000001    -0.000022   ... 0.001963    0.004084    35.207794   -78.143166  57.084208   -13.700212  A   4   C   0

您可能已经在使用熊猫了。获取虚拟对象？如果不是，此函数将分类列转换为多个指示符列（一个热编码）

此函数有一个“prefix”参数，专门针对您的情况。这可以是字符串列表（长度必须等于dataframe中的列数）。不过，在您的例子中，您可以将其作为一个字典，在其中您可以将列名映射到前缀。比如说：

pd.get_dummies(df, prefix={'x3': 'x3', 'x4': 'x4'})

这将增加一些列，如

x3\u 0、x3\u 1。。。x4_0，x4_1…

您可以读取数据，然后首先获得分类变量的所有唯一值的列表。然后，您可以在唯一值列表中放入一个热编码器对象（如sklearn.preprocessing.CategoricalEncoder）

这种方法在训练测试框架中，或者当您以块的形式读取数据时，也会有所帮助。我已经创建了一个python模块，它可以自己完成所有这些工作。您可以在这个GitHub存储库中找到它-

关于这方面的简短教程-

适用于此处。请提供问题输入的示例（此处没有一列的值为0、1、2），以及您希望看到的结果DF。去掉无关的信息（或者只保留几个专栏）。我会记住这一点，thanks@madsthaks如果你能接受我的回答，我将不胜感激