Pandas 如何将一个或多个分类变量编码到一个特征中
我试图在我拥有的一些分类数据上训练一个机器学习模型,但是我不确定如何编码它。如果我有一个如下所示的表,那么编码“var_3”的最佳方式是什么 将每个“属性”单独编码为整数是个好主意吗?例如:Pandas 如何将一个或多个分类变量编码到一个特征中,pandas,machine-learning,scikit-learn,categorical-data,Pandas,Machine Learning,Scikit Learn,Categorical Data,我试图在我拥有的一些分类数据上训练一个机器学习模型,但是我不确定如何编码它。如果我有一个如下所示的表,那么编码“var_3”的最佳方式是什么 将每个“属性”单独编码为整数是个好主意吗?例如: | var_1 | var_2 | var_3 | |-------|-------|-------| | 32 | 0 | 1 | | 15 | 1 | 1234 | 还是将每个可能的属性组合编码为整数更好?您可以尝试将var_3中的每个属性编码为二进制列。因此:
| var_1 | var_2 | var_3 |
|-------|-------|-------|
| 32 | 0 | 1 |
| 15 | 1 | 1234 |
还是将每个可能的属性组合编码为整数更好?您可以尝试将var_3中的每个属性编码为二进制列。因此:
var1 var_2 var_3 attr_1 attr_2 attr_3 attr_4
0 32 0 'attr_1' 1 0 0 0
1 15 1 'attr_1, attr_2, attr_3, attr_4' 1 1 1 1
在向模型提供数据帧之前,删除var_3
var1 var_2 var_3 attr_1 attr_2 attr_3 attr_4
0 32 0 'attr_1' 1 0 0 0
1 15 1 'attr_1, attr_2, attr_3, attr_4' 1 1 1 1