Pandas 使用dask的Groupby和filter

Pandas 使用dask的Groupby和filter,pandas,dask,Pandas,Dask,我想用dask做一个groupby。 使用熊猫,我将不得不写下这篇文章,以使一个基本的组和过滤器。 我的数据集包含两个索引:ORDER\u ID和PROD\u ID。每个由ORDER\u ID定义的订单,我们可以有一个或多个由其PROD\u ID定义的产品。 我的目标是删除包含1个产品的订单ID 使用熊猫,我可以这样做: df = df.groupby('ORDER_ID').filter(lambda x: len(x) >= 2) 我没有找到任何适合dask的解决方案。讨论了熊猫和d

我想用dask做一个groupby。 使用熊猫,我将不得不写下这篇文章,以使一个基本的组和过滤器。 我的数据集包含两个索引:ORDER\u ID和PROD\u ID。每个由ORDER\u ID定义的订单,我们可以有一个或多个由其PROD\u ID定义的产品。 我的目标是删除包含1个产品的订单ID

使用熊猫,我可以这样做:

df = df.groupby('ORDER_ID').filter(lambda x: len(x) >= 2)
我没有找到任何适合dask的解决方案。

讨论了熊猫和dask的问题

对于适合RAM的数据,Pandas通常可以更快、更容易地处理 使用Dask数据帧以外的数据。虽然“大数据”工具可能令人兴奋,但它们 几乎总是比正常的数据工具更糟糕 合适


所以这个任务在熊猫身上不起作用,因为它占用了太多的内存?

在熊猫身上它不起作用。它可以使用更多的内存。Daski最初没有询问我,如果数据不适合groupby使用的内存中