Python 如何选择标签编码的分类变量来创建假人？_Python_Pandas_Machine Learning_Sklearn Pandas

Python 如何选择标签编码的分类变量来创建假人？

python pandas machine-learning

Python 如何选择标签编码的分类变量来创建假人？,python,pandas,machine-learning,sklearn-pandas,Python,Pandas,Machine Learning,Sklearn Pandas,我正在研究一个数据集，其中分类变量已经标记为编码。所以，我的问题是，即使其中一些变量的值为0或1，我是否将它们都转换为伪变量某些变量的值为：-1、0、1和1、2、3、4 Dummie会给我二进制值，但是我已经有了一些我上面提到的分类特性的二进制值。把他们变成傻瓜有什么意义吗此外，我拥有的分类功能是int64类型的。我应该先将它们转换为对象类型，然后创建假人，还是将它们保留为int64，然后创建假人我目前正在使用熊猫的get_假人制作假人，它与OneHotEncoder有什么不同吗？如果是，

我正在研究一个数据集，其中分类变量已经标记为编码。所以，我的问题是，即使其中一些变量的值为0或1，我是否将它们都转换为伪变量

某些变量的值为：-1、0、1和1、2、3、4

Dummie会给我二进制值，但是我已经有了一些我上面提到的分类特性的二进制值。把他们变成傻瓜有什么意义吗

此外，我拥有的分类功能是int64类型的。我应该先将它们转换为对象类型，然后创建假人，还是将它们保留为int64，然后创建假人

我目前正在使用熊猫的get_假人制作假人，它与OneHotEncoder有什么不同吗？如果是，那么哪一个更可取

这是数据集的标题：

 custid         region  townsize    gender  age agecat  birthmonth  ed  edcat   jobcat  ... owncd   ownpda  ownpc   ownipod owngame ownfax  news    response_01 response_02 response_03
 3964-QJWTRG-NPN    1   2.0         1       20  2       September   15  3           1   ...     0       0       0       1       1       0   0       0           1           0
 0648-AIPJSP-UVM    5   5.0         0       22  2       May         17  4           2   ...     1       1       1       1       1       1   1       0           0           0
 5195-TLUDJE-HVO    3   4.0         1       67  6       June        14  2           2   ...     1       0       0       0       0       0   1       0           0           0
 4459-VLPQUH-3OL    4   3.0         0       23  2       May         16  3           2   ...     1       0       1       1       1       0   1       1           0           0
 8158-SMTQFB-CNO    2   2.0         0       26  3       July        16  3           2   ...     1       0       1       0       1       0   0       0           1           0

我想为线性回归模型准备这个数据集。

我想这个数据准备练习的最终目标是一个ML算法。因此，您需要根据该算法的先决条件查看数据。一般来说，对于大多数算法，如果您的数据是数字编码的，无论您使用的是什么数据预处理算法，标签编码器还是一个热编码器，都可以

在更细的范围内，首选哪一种取决于算法、您的数据和手头的数据量

不管怎样，判断哪一个更适合您的任务和数据（或来自熊猫）的唯一方法是通过交叉验证和不同的数据预处理来运行您的算法

为了给您的选择添加更多的考虑因素，一些算法（例如KNN和深度学习）可能需要数据规范化。

我想这个数据准备练习的最终目标是ML算法。因此，您需要根据该算法的先决条件查看数据。一般来说，对于大多数算法，如果您的数据是数字编码的，无论您使用的是什么数据预处理算法，标签编码器还是一个热编码器，都可以

在更细的范围内，首选哪一种取决于算法、您的数据和手头的数据量

不管怎样，判断哪一个更适合您的任务和数据（或来自熊猫）的唯一方法是通过交叉验证和不同的数据预处理来运行您的算法

为了给您的选择添加更多的考虑因素，一些算法（例如KNN和深度学习）可能需要数据规范化。

对不起，我忘了添加我想为线性回归模型准备的内容。请使用您的分类功能尝试OHO或Label Encoder，使用您喜欢的度量运行CV，然后看看哪一个更好。“我的打赌标签编码器”的性能会更好。如果您的目标算法是线性回归，那么您有一个限制：您的数据中需要有比您的特征矩阵的长格式特征更多的事例。因此，根据您的数据，OHO可能会基于此限制和数据量而无法选择。几乎所有分类变量都已在数据集中进行了标签编码，除了“birthmonth”和“age”功能，我将删除“custid”。仅标签编码就足以创建线性回归模型吗？我的印象是，我的模型中的方程式可能认为一个类别的值高于另一个类别，因为01尝试使用OHO或LabelEncoder对出生月份和年龄进行编码，看看哪一个更好2如果您认为某些特征编码错误，则某个类别的值高于另一个类别，因为0抱歉，我忘了补充一点，我想为线性回归模型做准备。尝试OHO或标签编码器，使用您的分类功能，使用您喜欢的度量运行CV，看看哪一个更好。“我的打赌标签编码器”的性能会更好。如果您的目标算法是线性回归，那么您有一个限制：您的数据中需要有比您的特征矩阵的长格式特征更多的事例。因此，根据您的数据，OHO可能会基于此限制和数据量而无法选择。几乎所有分类变量都已在数据集中进行了标签编码，除了“birthmonth”和“age”功能，我将删除“custid”。仅标签编码就足以创建线性回归模型吗？我的印象是，我的模型中的方程式可能认为一个类别的值高于另一个类别，因为01尝试使用OHO或LabelEncoder对出生月份和年龄进行编码，看看哪一个更好2如果您认为某些特征编码错误，则某个类别的值高于另一个类别，因为0