Python 在dask数据帧上使用groupby
关于在dask数据帧上使用groupby,我有几个问题。 据我所知,像在Pandas中那样迭代groupby结果在dask中不起作用Python 在dask数据帧上使用groupby,python,pandas,dask,Python,Pandas,Dask,关于在dask数据帧上使用groupby,我有几个问题。 据我所知,像在Pandas中那样迭代groupby结果在dask中不起作用 for name, group in sorted(grouped.groups): logger.info((name, group)) 这是不允许的。我们应该使用apply。 然而,在熊猫中,如果我想了解群体的数量,我可以做以下几点: len(grouped.groups) 通过使用apply,我希望能够为dask数据帧上的groupby执行此操
for name, group in sorted(grouped.groups):
logger.info((name, group))
这是不允许的。我们应该使用apply
。
然而,在熊猫中,如果我想了解群体的数量,我可以做以下几点:
len(grouped.groups)
通过使用apply
,我希望能够为dask数据帧上的groupby执行此操作:
d_grouped.apply(len)
但这不起作用。如何在dask数据帧上找出groupby产生的组数?组的len不等于结果索引中唯一值的len吗?我只是想找一个替代品,不知道你工作的更多细节,我只是在这里做个猜测。Dask将
应用
函数并行化到多个内核中的每个组上。你可以用它来实现类似的目标。在这种情况下,您可以使用pandasgroupby
对象的本机功能和属性,同时并行应用函数。请注意,这并非没有警告。