Pandas dask中groupby后的变换

Pandas dask中groupby后的变换,pandas,dask,Pandas,Dask,我希望使用dask数据帧在groupby之后执行类似转换的操作。通过查看文档,dask目前似乎没有给出这个选项,但有人有任何解决方法吗 在实践中:我希望从B的原始值中减去B列的平均值(在a上执行groupby之后)。在纯熊猫中,它看起来如下所示: def demean_and_log(x): x_log = np.log(x) x_log_mean = x_log.mean() return x_log - x_log_mean log_demean_col = X.g

我希望使用dask数据帧在groupby之后执行类似转换的操作。通过查看文档,dask目前似乎没有给出这个选项,但有人有任何解决方法吗

在实践中:我希望从B的原始值中减去B列的平均值(在a上执行groupby之后)。在纯熊猫中,它看起来如下所示:

def demean_and_log(x):
    x_log = np.log(x)
    x_log_mean = x_log.mean()
    return x_log - x_log_mean

log_demean_col = X.groupby(['A'])['B'].transform(demean_and_log)

然而,这是非常缓慢的-因为我正在处理非常大的数据帧,而且因为我在Python中使用了自定义转换函数,pandas没有发布GIL。

您可能想看看这个问题您可能想看看这个问题