Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/319.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何选择标签编码的分类变量来创建假人?_Python_Pandas_Machine Learning_Sklearn Pandas - Fatal编程技术网

Python 如何选择标签编码的分类变量来创建假人?

Python 如何选择标签编码的分类变量来创建假人?,python,pandas,machine-learning,sklearn-pandas,Python,Pandas,Machine Learning,Sklearn Pandas,我正在研究一个数据集,其中分类变量已经标记为编码。所以,我的问题是,即使其中一些变量的值为0或1,我是否将它们都转换为伪变量 某些变量的值为:-1、0、1和1、2、3、4 Dummie会给我二进制值,但是我已经有了一些我上面提到的分类特性的二进制值。把他们变成傻瓜有什么意义吗 此外,我拥有的分类功能是int64类型的。我应该先将它们转换为对象类型,然后创建假人,还是将它们保留为int64,然后创建假人 我目前正在使用熊猫的get_假人制作假人,它与OneHotEncoder有什么不同吗?如果是,

我正在研究一个数据集,其中分类变量已经标记为编码。所以,我的问题是,即使其中一些变量的值为0或1,我是否将它们都转换为伪变量

某些变量的值为:-1、0、1和1、2、3、4

Dummie会给我二进制值,但是我已经有了一些我上面提到的分类特性的二进制值。把他们变成傻瓜有什么意义吗

此外,我拥有的分类功能是int64类型的。我应该先将它们转换为对象类型,然后创建假人,还是将它们保留为int64,然后创建假人

我目前正在使用熊猫的get_假人制作假人,它与OneHotEncoder有什么不同吗?如果是,那么哪一个更可取

这是数据集的标题:

 custid         region  townsize    gender  age agecat  birthmonth  ed  edcat   jobcat  ... owncd   ownpda  ownpc   ownipod owngame ownfax  news    response_01 response_02 response_03
 3964-QJWTRG-NPN    1   2.0         1       20  2       September   15  3           1   ...     0       0       0       1       1       0   0       0           1           0
 0648-AIPJSP-UVM    5   5.0         0       22  2       May         17  4           2   ...     1       1       1       1       1       1   1       0           0           0
 5195-TLUDJE-HVO    3   4.0         1       67  6       June        14  2           2   ...     1       0       0       0       0       0   1       0           0           0
 4459-VLPQUH-3OL    4   3.0         0       23  2       May         16  3           2   ...     1       0       1       1       1       0   1       1           0           0
 8158-SMTQFB-CNO    2   2.0         0       26  3       July        16  3           2   ...     1       0       1       0       1       0   0       0           1           0

我想为线性回归模型准备这个数据集。

我想这个数据准备练习的最终目标是一个ML算法。因此,您需要根据该算法的先决条件查看数据。一般来说,对于大多数算法,如果您的数据是数字编码的,无论您使用的是什么数据预处理算法,标签编码器还是一个热编码器,都可以

在更细的范围内,首选哪一种取决于算法、您的数据和手头的数据量

不管怎样,判断哪一个更适合您的任务和数据(或来自熊猫)的唯一方法是通过交叉验证和不同的数据预处理来运行您的算法


为了给您的选择添加更多的考虑因素,一些算法(例如KNN和深度学习)可能需要数据规范化。

我想这个数据准备练习的最终目标是ML算法。因此,您需要根据该算法的先决条件查看数据。一般来说,对于大多数算法,如果您的数据是数字编码的,无论您使用的是什么数据预处理算法,标签编码器还是一个热编码器,都可以

在更细的范围内,首选哪一种取决于算法、您的数据和手头的数据量

不管怎样,判断哪一个更适合您的任务和数据(或来自熊猫)的唯一方法是通过交叉验证和不同的数据预处理来运行您的算法


为了给您的选择添加更多的考虑因素,一些算法(例如KNN和深度学习)可能需要数据规范化。

对不起,我忘了添加我想为线性回归模型准备的内容。请使用您的分类功能尝试OHO或Label Encoder,使用您喜欢的度量运行CV,然后看看哪一个更好。“我的打赌标签编码器”的性能会更好。如果您的目标算法是线性回归,那么您有一个限制:您的数据中需要有比您的特征矩阵的长格式特征更多的事例。因此,根据您的数据,OHO可能会基于此限制和数据量而无法选择。几乎所有分类变量都已在数据集中进行了标签编码,除了“birthmonth”和“age”功能,我将删除“custid”。仅标签编码就足以创建线性回归模型吗?我的印象是,我的模型中的方程式可能认为一个类别的值高于另一个类别,因为01尝试使用OHO或LabelEncoder对出生月份和年龄进行编码,看看哪一个更好2如果您认为某些特征编码错误,则某个类别的值高于另一个类别,因为0抱歉,我忘了补充一点,我想为线性回归模型做准备。尝试OHO或标签编码器,使用您的分类功能,使用您喜欢的度量运行CV,看看哪一个更好。“我的打赌标签编码器”的性能会更好。如果您的目标算法是线性回归,那么您有一个限制:您的数据中需要有比您的特征矩阵的长格式特征更多的事例。因此,根据您的数据,OHO可能会基于此限制和数据量而无法选择。几乎所有分类变量都已在数据集中进行了标签编码,除了“birthmonth”和“age”功能,我将删除“custid”。仅标签编码就足以创建线性回归模型吗?我的印象是,我的模型中的方程式可能认为一个类别的值高于另一个类别,因为01尝试使用OHO或LabelEncoder对出生月份和年龄进行编码,看看哪一个更好2如果您认为某些特征编码错误,则某个类别的值高于另一个类别,因为0