Pandas dask中groupby后的变换
我希望使用dask数据帧在groupby之后执行类似转换的操作。通过查看文档,dask目前似乎没有给出这个选项,但有人有任何解决方法吗 在实践中:我希望从B的原始值中减去B列的平均值(在a上执行groupby之后)。在纯熊猫中,它看起来如下所示:Pandas dask中groupby后的变换,pandas,dask,Pandas,Dask,我希望使用dask数据帧在groupby之后执行类似转换的操作。通过查看文档,dask目前似乎没有给出这个选项,但有人有任何解决方法吗 在实践中:我希望从B的原始值中减去B列的平均值(在a上执行groupby之后)。在纯熊猫中,它看起来如下所示: def demean_and_log(x): x_log = np.log(x) x_log_mean = x_log.mean() return x_log - x_log_mean log_demean_col = X.g
def demean_and_log(x):
x_log = np.log(x)
x_log_mean = x_log.mean()
return x_log - x_log_mean
log_demean_col = X.groupby(['A'])['B'].transform(demean_and_log)
然而,这是非常缓慢的-因为我正在处理非常大的数据帧,而且因为我在Python中使用了自定义转换函数,pandas没有发布GIL。您可能想看看这个问题您可能想看看这个问题