Python 在探索性数据分析(EDA)中消除偏斜

Python 在探索性数据分析(EDA)中消除偏斜,python,pandas,binning,skew,Python,Pandas,Binning,Skew,很荣幸能在这里回答我的第一个问题:) 我在路上,我每天都会给一个自我介绍的数据科学家带来新的挑战。我今天的挑战是: 我举了一个例子,有人曾经通过pandas'cut'函数来存储值,但这并不能消除数据的高度偏斜: (-0.512, 102.466] 838 (102.466, 204.932] 33 (204.932, 307.398] 17 (409.863, 512.329] 3 (307.398, 409.863] 0 因此,我将它们与panda

很荣幸能在这里回答我的第一个问题:) 我在路上,我每天都会给一个自我介绍的数据科学家带来新的挑战。我今天的挑战是:

我举了一个例子,有人曾经通过pandas'cut'函数来存储值,但这并不能消除数据的高度偏斜:

(-0.512, 102.466]     838
(102.466, 204.932]     33
(204.932, 307.398]     17
(409.863, 512.329]      3
(307.398, 409.863]      0
因此,我将它们与pandas'qcut'组合在一起,以获得大部分大小均匀的垃圾箱(垃圾箱“价值”计数的分布没有“视觉”偏斜):

我的直觉告诉我,在我读到通过“log”或“sqrt”f.e进行数据转换后,这不是处理扭曲数据的方法

我在这里比较苹果和桔子吗?:)

(7.854, 10.5]        184
(21.679, 39.688]     180
(-0.001, 7.854]      179
(39.688, 512.329]    176
(10.5, 21.679]       172