Python 标准化或规范化分类值
我对数据科学相当陌生(我正在使用python),并发现在进一步研究之前,我们最好对数据进行标准化或规范化。我的问题是:Python 标准化或规范化分类值,python,data-science,normalize,standardized,Python,Data Science,Normalize,Standardized,我对数据科学相当陌生(我正在使用python),并发现在进一步研究之前,我们最好对数据进行标准化或规范化。我的问题是: 如果存在分类值(二进制且使用一个热编码,0或1),例如男性或女性,我们需要标准化或规范化此类数据吗 如果分类数据是非二进制的,例如,你的健康测量(1=差,2=相当健康,3=健康,4=适合,5=非常适合)。我们还需要对这些数据进行标准化或规范化吗 如果您有两个以上的分类值,最好将它们转换为一个热编码。分类值不应具有数学关系。如果无法解释分类数据之间的数学顺序(例如,拟合>健康?)
如果您有两个以上的分类值,最好将它们转换为一个热编码。分类值不应具有数学关系。如果无法解释分类数据之间的数学顺序(例如,拟合>健康?),则应创建一个热向量,并将其表示为特征:
Old Version New version
1th 2th 3th 4th 5th 6th
poor 1 0 0 0 0 0 1
quite 2 0 0 0 0 1 0
healthy 3 0 0 0 1 0 0
healthy 4 0 0 1 0 0 0
fit 5 0 1 0 0 0 0
very fit 6 1 0 0 0 0 0
基本上你有6个新特性,每个都代表你的一个类别
注意:没有必要对二进制数据应用规范化或标准化,因为它已经在[0,1]我明白了,但是如果我有其他列包含数据,例如年龄和薪水,其中年龄范围从1到80,薪水范围从,例如,该怎么办。5000到500000,因为它们在不同的范围内,我应该对它们都应用规范化还是标准化?例如,我对年龄和薪水进行了标准化或标准化处理,但对一个热编码的类别也不进行标准化处理?你可以解释5000和500000之间的数学关系,这样你就可以对年龄和薪水进行标准化处理。基本上,如果值之间存在数学关系,则可以应用规范化。