Python 一种基于scikit-learn的大数据集热编码
我有一个大的数据集,我计划对其进行逻辑回归。它有很多分类变量,每个变量都有数千个特性,我计划对这些特性使用一个热编码。我需要处理小批量的数据。我的问题是如何确保一个热编码在第一次运行时看到每个分类变量的所有特性?没有办法找出您的分类特性可以采用哪些可能的值,这可能意味着,为了获得分类变量的唯一值列表,您必须彻底检查数据一次Python 一种基于scikit-learn的大数据集热编码,python,scikit-learn,Python,Scikit Learn,我有一个大的数据集,我计划对其进行逻辑回归。它有很多分类变量,每个变量都有数千个特性,我计划对这些特性使用一个热编码。我需要处理小批量的数据。我的问题是如何确保一个热编码在第一次运行时看到每个分类变量的所有特性?没有办法找出您的分类特性可以采用哪些可能的值,这可能意味着,为了获得分类变量的唯一值列表,您必须彻底检查数据一次 在此之后,需要将分类变量转换为整数值,并将OneHotEncoder中的n_值=kwarg设置为一个数组,该数组对应于每个变量可以接受的不同值的数量。您可以读取数据并首先获得
在此之后,需要将分类变量转换为整数值,并将
OneHotEncoder
中的n_值=
kwarg设置为一个数组,该数组对应于每个变量可以接受的不同值的数量。您可以读取数据并首先获得分类变量的所有唯一值的列表变量。然后,您可以在唯一值列表中放入一个热编码器对象(如sklearn.preprocessing.CategoricalEncoder)
这种方法有助于解决这一问题
- 列车测试框架
- 或者,当您以块的形式读取数据时
关于这方面的简短教程-这是一个常见的热编码问题;答案是,当在测试集中引入新类别时,没有好的方法来处理案例。