Python 在探索性数据分析(EDA)中消除偏斜
很荣幸能在这里回答我的第一个问题:) 我在路上,我每天都会给一个自我介绍的数据科学家带来新的挑战。我今天的挑战是: 我举了一个例子,有人曾经通过pandas'cut'函数来存储值,但这并不能消除数据的高度偏斜:Python 在探索性数据分析(EDA)中消除偏斜,python,pandas,binning,skew,Python,Pandas,Binning,Skew,很荣幸能在这里回答我的第一个问题:) 我在路上,我每天都会给一个自我介绍的数据科学家带来新的挑战。我今天的挑战是: 我举了一个例子,有人曾经通过pandas'cut'函数来存储值,但这并不能消除数据的高度偏斜: (-0.512, 102.466] 838 (102.466, 204.932] 33 (204.932, 307.398] 17 (409.863, 512.329] 3 (307.398, 409.863] 0 因此,我将它们与panda
(-0.512, 102.466] 838
(102.466, 204.932] 33
(204.932, 307.398] 17
(409.863, 512.329] 3
(307.398, 409.863] 0
因此,我将它们与pandas'qcut'组合在一起,以获得大部分大小均匀的垃圾箱(垃圾箱“价值”计数的分布没有“视觉”偏斜):
我的直觉告诉我,在我读到通过“log”或“sqrt”f.e进行数据转换后,这不是处理扭曲数据的方法
我在这里比较苹果和桔子吗?:)
(7.854, 10.5] 184
(21.679, 39.688] 180
(-0.001, 7.854] 179
(39.688, 512.329] 176
(10.5, 21.679] 172