Python 标准化或规范化分类值_Python_Data Science_Normalize_Standardized

Python 标准化或规范化分类值

python

Python 标准化或规范化分类值,python,data-science,normalize,standardized,Python,Data Science,Normalize,Standardized,我对数据科学相当陌生（我正在使用python），并发现在进一步研究之前，我们最好对数据进行标准化或规范化。我的问题是：如果存在分类值（二进制且使用一个热编码，0或1），例如男性或女性，我们需要标准化或规范化此类数据吗如果分类数据是非二进制的，例如，你的健康测量（1=差，2=相当健康，3=健康，4=适合，5=非常适合）。我们还需要对这些数据进行标准化或规范化吗如果您有两个以上的分类值，最好将它们转换为一个热编码。分类值不应具有数学关系。如果无法解释分类数据之间的数学顺序（例如，拟合>健康？）

我对数据科学相当陌生（我正在使用python），并发现在进一步研究之前，我们最好对数据进行标准化或规范化。我的问题是：

如果存在分类值（二进制且使用一个热编码，0或1），例如男性或女性，我们需要标准化或规范化此类数据吗

如果分类数据是非二进制的，例如，你的健康测量（1=差，2=相当健康，3=健康，4=适合，5=非常适合）。我们还需要对这些数据进行标准化或规范化吗

如果您有两个以上的分类值，最好将它们转换为一个热编码。分类值不应具有数学关系。如果无法解释分类数据之间的数学顺序（例如，拟合>健康？），则应创建一个热向量，并将其表示为特征：

                 Old Version      New version
                              1th 2th  3th  4th  5th  6th
poor              1           0   0    0    0    0     1
quite             2           0   0    0    0    1     0
healthy           3           0   0    0    1    0     0
healthy           4           0   0    1    0    0     0
fit               5           0   1    0    0    0     0
very fit          6           1   0    0    0    0     0

基本上你有6个新特性，每个都代表你的一个类别

注意：没有必要对二进制数据应用规范化或标准化，因为它已经在[0,1]

我明白了，但是如果我有其他列包含数据，例如年龄和薪水，其中年龄范围从1到80，薪水范围从，例如，该怎么办。5000到500000，因为它们在不同的范围内，我应该对它们都应用规范化还是标准化？例如，我对年龄和薪水进行了标准化或标准化处理，但对一个热编码的类别也不进行标准化处理？你可以解释5000和500000之间的数学关系，这样你就可以对年龄和薪水进行标准化处理。基本上，如果值之间存在数学关系，则可以应用规范化。