Python 如何选择标签编码的分类变量来创建假人?
我正在研究一个数据集,其中分类变量已经标记为编码。所以,我的问题是,即使其中一些变量的值为0或1,我是否将它们都转换为伪变量 某些变量的值为:-1、0、1和1、2、3、4 Dummie会给我二进制值,但是我已经有了一些我上面提到的分类特性的二进制值。把他们变成傻瓜有什么意义吗 此外,我拥有的分类功能是int64类型的。我应该先将它们转换为对象类型,然后创建假人,还是将它们保留为int64,然后创建假人 我目前正在使用熊猫的get_假人制作假人,它与OneHotEncoder有什么不同吗?如果是,那么哪一个更可取 这是数据集的标题:Python 如何选择标签编码的分类变量来创建假人?,python,pandas,machine-learning,sklearn-pandas,Python,Pandas,Machine Learning,Sklearn Pandas,我正在研究一个数据集,其中分类变量已经标记为编码。所以,我的问题是,即使其中一些变量的值为0或1,我是否将它们都转换为伪变量 某些变量的值为:-1、0、1和1、2、3、4 Dummie会给我二进制值,但是我已经有了一些我上面提到的分类特性的二进制值。把他们变成傻瓜有什么意义吗 此外,我拥有的分类功能是int64类型的。我应该先将它们转换为对象类型,然后创建假人,还是将它们保留为int64,然后创建假人 我目前正在使用熊猫的get_假人制作假人,它与OneHotEncoder有什么不同吗?如果是,
custid region townsize gender age agecat birthmonth ed edcat jobcat ... owncd ownpda ownpc ownipod owngame ownfax news response_01 response_02 response_03
3964-QJWTRG-NPN 1 2.0 1 20 2 September 15 3 1 ... 0 0 0 1 1 0 0 0 1 0
0648-AIPJSP-UVM 5 5.0 0 22 2 May 17 4 2 ... 1 1 1 1 1 1 1 0 0 0
5195-TLUDJE-HVO 3 4.0 1 67 6 June 14 2 2 ... 1 0 0 0 0 0 1 0 0 0
4459-VLPQUH-3OL 4 3.0 0 23 2 May 16 3 2 ... 1 0 1 1 1 0 1 1 0 0
8158-SMTQFB-CNO 2 2.0 0 26 3 July 16 3 2 ... 1 0 1 0 1 0 0 0 1 0
我想为线性回归模型准备这个数据集。我想这个数据准备练习的最终目标是一个ML算法。因此,您需要根据该算法的先决条件查看数据。一般来说,对于大多数算法,如果您的数据是数字编码的,无论您使用的是什么数据预处理算法,标签编码器还是一个热编码器,都可以 在更细的范围内,首选哪一种取决于算法、您的数据和手头的数据量 不管怎样,判断哪一个更适合您的任务和数据(或来自熊猫)的唯一方法是通过交叉验证和不同的数据预处理来运行您的算法
为了给您的选择添加更多的考虑因素,一些算法(例如KNN和深度学习)可能需要数据规范化。我想这个数据准备练习的最终目标是ML算法。因此,您需要根据该算法的先决条件查看数据。一般来说,对于大多数算法,如果您的数据是数字编码的,无论您使用的是什么数据预处理算法,标签编码器还是一个热编码器,都可以 在更细的范围内,首选哪一种取决于算法、您的数据和手头的数据量 不管怎样,判断哪一个更适合您的任务和数据(或来自熊猫)的唯一方法是通过交叉验证和不同的数据预处理来运行您的算法
为了给您的选择添加更多的考虑因素,一些算法(例如KNN和深度学习)可能需要数据规范化。对不起,我忘了添加我想为线性回归模型准备的内容。请使用您的分类功能尝试OHO或Label Encoder,使用您喜欢的度量运行CV,然后看看哪一个更好。“我的打赌标签编码器”的性能会更好。如果您的目标算法是线性回归,那么您有一个限制:您的数据中需要有比您的特征矩阵的长格式特征更多的事例。因此,根据您的数据,OHO可能会基于此限制和数据量而无法选择。几乎所有分类变量都已在数据集中进行了标签编码,除了“birthmonth”和“age”功能,我将删除“custid”。仅标签编码就足以创建线性回归模型吗?我的印象是,我的模型中的方程式可能认为一个类别的值高于另一个类别,因为01尝试使用OHO或LabelEncoder对出生月份和年龄进行编码,看看哪一个更好2如果您认为某些特征编码错误,则某个类别的值高于另一个类别,因为0抱歉,我忘了补充一点,我想为线性回归模型做准备。尝试OHO或标签编码器,使用您的分类功能,使用您喜欢的度量运行CV,看看哪一个更好。“我的打赌标签编码器”的性能会更好。如果您的目标算法是线性回归,那么您有一个限制:您的数据中需要有比您的特征矩阵的长格式特征更多的事例。因此,根据您的数据,OHO可能会基于此限制和数据量而无法选择。几乎所有分类变量都已在数据集中进行了标签编码,除了“birthmonth”和“age”功能,我将删除“custid”。仅标签编码就足以创建线性回归模型吗?我的印象是,我的模型中的方程式可能认为一个类别的值高于另一个类别,因为01尝试使用OHO或LabelEncoder对出生月份和年龄进行编码,看看哪一个更好2如果您认为某些特征编码错误,则某个类别的值高于另一个类别,因为0