Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/282.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 标准化或规范化分类值_Python_Data Science_Normalize_Standardized - Fatal编程技术网

Python 标准化或规范化分类值

Python 标准化或规范化分类值,python,data-science,normalize,standardized,Python,Data Science,Normalize,Standardized,我对数据科学相当陌生(我正在使用python),并发现在进一步研究之前,我们最好对数据进行标准化或规范化。我的问题是: 如果存在分类值(二进制且使用一个热编码,0或1),例如男性或女性,我们需要标准化或规范化此类数据吗 如果分类数据是非二进制的,例如,你的健康测量(1=差,2=相当健康,3=健康,4=适合,5=非常适合)。我们还需要对这些数据进行标准化或规范化吗 如果您有两个以上的分类值,最好将它们转换为一个热编码。分类值不应具有数学关系。如果无法解释分类数据之间的数学顺序(例如,拟合>健康?)

我对数据科学相当陌生(我正在使用python),并发现在进一步研究之前,我们最好对数据进行标准化或规范化。我的问题是:

  • 如果存在分类值(二进制且使用一个热编码,0或1),例如男性或女性,我们需要标准化或规范化此类数据吗
  • 如果分类数据是非二进制的,例如,你的健康测量(1=差,2=相当健康,3=健康,4=适合,5=非常适合)。我们还需要对这些数据进行标准化或规范化吗

  • 如果您有两个以上的分类值,最好将它们转换为一个热编码。分类值不应具有数学关系。如果无法解释分类数据之间的数学顺序(例如,拟合>健康?),则应创建一个热向量,并将其表示为特征:

                     Old Version      New version
                                  1th 2th  3th  4th  5th  6th
    poor              1           0   0    0    0    0     1
    quite             2           0   0    0    0    1     0
    healthy           3           0   0    0    1    0     0
    healthy           4           0   0    1    0    0     0
    fit               5           0   1    0    0    0     0
    very fit          6           1   0    0    0    0     0
    
    基本上你有6个新特性,每个都代表你的一个类别


    注意:没有必要对二进制数据应用规范化或标准化,因为它已经在[0,1]

    我明白了,但是如果我有其他列包含数据,例如年龄和薪水,其中年龄范围从1到80,薪水范围从,例如,该怎么办。5000到500000,因为它们在不同的范围内,我应该对它们都应用规范化还是标准化?例如,我对年龄和薪水进行了标准化或标准化处理,但对一个热编码的类别也不进行标准化处理?你可以解释5000和500000之间的数学关系,这样你就可以对年龄和薪水进行标准化处理。基本上,如果值之间存在数学关系,则可以应用规范化。