Pandas 如何将一个或多个分类变量编码到一个特征中

Pandas 如何将一个或多个分类变量编码到一个特征中,pandas,machine-learning,scikit-learn,categorical-data,Pandas,Machine Learning,Scikit Learn,Categorical Data,我试图在我拥有的一些分类数据上训练一个机器学习模型,但是我不确定如何编码它。如果我有一个如下所示的表,那么编码“var_3”的最佳方式是什么 将每个“属性”单独编码为整数是个好主意吗?例如: | var_1 | var_2 | var_3 | |-------|-------|-------| | 32 | 0 | 1 | | 15 | 1 | 1234 | 还是将每个可能的属性组合编码为整数更好?您可以尝试将var_3中的每个属性编码为二进制列。因此:

我试图在我拥有的一些分类数据上训练一个机器学习模型,但是我不确定如何编码它。如果我有一个如下所示的表,那么编码“var_3”的最佳方式是什么

将每个“属性”单独编码为整数是个好主意吗?例如:

| var_1 | var_2 | var_3 |
|-------|-------|-------|
| 32    | 0     | 1     |
| 15    | 1     | 1234  |

还是将每个可能的属性组合编码为整数更好?

您可以尝试将var_3中的每个属性编码为二进制列。因此:

   var1  var_2                            var_3   attr_1  attr_2  attr_3  attr_4
0    32      0                          'attr_1'       1       0       0       0
1    15      1  'attr_1, attr_2, attr_3, attr_4'       1       1       1       1
在向模型提供数据帧之前,删除
var_3

   var1  var_2                            var_3   attr_1  attr_2  attr_3  attr_4
0    32      0                          'attr_1'       1       0       0       0
1    15      1  'attr_1, attr_2, attr_3, attr_4'       1       1       1       1