Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/323.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/visual-studio-2008/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 混合数据集的特征选择_Python_Feature Selection - Fatal编程技术网

Python 混合数据集的特征选择

Python 混合数据集的特征选择,python,feature-selection,Python,Feature Selection,我是数据科学领域的新手 我有一个数据集,既有数字数据也有字符串数据。有趣的是,这两种类型的数据对结果都有意义。如何从数据集中选择相关特征 我应该使用LabelEncoder并将数据从字符串转换为数字,然后继续相关吗?我走的路对吗?有没有更好的办法来解决这场危机?有点逃避现实,但你可以简单地使用随机森林,愉快地混合数字和分类数据。在OneHotEncoding上使用LabelEncoder编码将允许您使用更广泛的算法。如果对可用值进行有意义的排序,并确保在编码中保留排序,则可以使用label编码对

我是数据科学领域的新手

我有一个数据集,既有数字数据也有字符串数据。有趣的是,这两种类型的数据对结果都有意义。如何从数据集中选择相关特征


我应该使用LabelEncoder并将数据从字符串转换为数字,然后继续相关吗?我走的路对吗?有没有更好的办法来解决这场危机?

有点逃避现实,但你可以简单地使用随机森林,愉快地混合数字和分类数据。在OneHotEncoding上使用LabelEncoder编码将允许您使用更广泛的算法。

如果对可用值进行有意义的排序,并确保在编码中保留排序,则可以使用label编码对分类变量进行编码。有关示例,请参见

如果没有排序(或者解决一个有意义的排序太麻烦),您可以使用一个热编码。但是,这将根据数据集中特征的不同值按比例增加特征集

如果一个hot生成一个非常大的特征集,并且分类字符串数据是自然语言单词,那么您可能需要使用预训练嵌入


无论哪种方式,您都可以将编码的分类列连接到连续功能集,然后继续学习和功能选择。

数字和字符串数据是连续的(即任意值,如价格、温度等的测量值)还是分类的?也就是说,是否存在来自有限集的数据,并且将来的数据(例如,来自潜在测试集的数据)是否会包含当前数据集中不确定包含的值?数据集包含连续数据和分类数据。谢谢,我将进行检查。