Pandas 使用dask的Groupby和filter_Pandas_Dask

Pandas 使用dask的Groupby和filter

pandas dask

Pandas 使用dask的Groupby和filter,pandas,dask,Pandas,Dask,我想用dask做一个groupby。使用熊猫，我将不得不写下这篇文章，以使一个基本的组和过滤器。我的数据集包含两个索引：ORDER\u ID和PROD\u ID。每个由ORDER\u ID定义的订单，我们可以有一个或多个由其PROD\u ID定义的产品。我的目标是删除包含1个产品的订单ID 使用熊猫，我可以这样做： df = df.groupby('ORDER_ID').filter(lambda x: len(x) >= 2) 我没有找到任何适合dask的解决方案。讨论了熊猫和d

我想用dask做一个groupby。使用熊猫，我将不得不写下这篇文章，以使一个基本的组和过滤器。我的数据集包含两个索引：ORDER\u ID和PROD\u ID。每个由ORDER\u ID定义的订单，我们可以有一个或多个由其PROD\u ID定义的产品。我的目标是删除包含1个产品的订单ID

使用熊猫，我可以这样做：

df = df.groupby('ORDER_ID').filter(lambda x: len(x) >= 2)

我没有找到任何适合dask的解决方案。

讨论了熊猫和dask的问题

对于适合RAM的数据，Pandas通常可以更快、更容易地处理使用Dask数据帧以外的数据。虽然“大数据”工具可能令人兴奋，但它们几乎总是比正常的数据工具更糟糕合适

所以这个任务在熊猫身上不起作用，因为它占用了太多的内存？

在熊猫身上它不起作用。它可以使用更多的内存。Daski最初没有询问我，如果数据不适合groupby使用的内存中