Python 统计Dask数据帧中特定值的所有出现次数_Python_Data Science_Dask

Python 统计Dask数据帧中特定值的所有出现次数

python dask

Python 统计Dask数据帧中特定值的所有出现次数,python,data-science,dask,Python,Data Science,Dask,我有一个dask数据帧，包含数千列和行，如下所示： pprint(daskdf.head()) grid lat lon ... 2014-12-29 2014-12-30 2014-12-31 0 0 48.125 -124.625 ... 0.0 0.0 -17.034216 1 0 48.625 -124.625 ... 0.0 0.0 -19.904214 4

我有一个dask数据帧，包含数千列和行，如下所示：

pprint(daskdf.head())
   grid     lat      lon  ...  2014-12-29  2014-12-30  2014-12-31
0     0  48.125 -124.625  ...         0.0         0.0  -17.034216
1     0  48.625 -124.625  ...         0.0         0.0  -19.904214
4     0  42.375 -124.375  ...         0.0         0.0   -8.380443
5     0  42.625 -124.375  ...         0.0         0.0   -8.796803
6     0  42.875 -124.375  ...         0.0         0.0   -7.683688

pddf[pddf==500].count().sum()

我想统计整个数据帧中出现某个值的所有事件。在熊猫中，这可以通过以下方式完成：

pprint(daskdf.head())
   grid     lat      lon  ...  2014-12-29  2014-12-30  2014-12-31
0     0  48.125 -124.625  ...         0.0         0.0  -17.034216
1     0  48.625 -124.625  ...         0.0         0.0  -19.904214
4     0  42.375 -124.375  ...         0.0         0.0   -8.380443
5     0  42.625 -124.375  ...         0.0         0.0   -8.796803
6     0  42.875 -124.375  ...         0.0         0.0   -7.683688

pddf[pddf==500].count().sum()

我知道不能用dask翻译所有的函数/语法，但我如何用dask数据帧来翻译呢？我试着做：

daskdf[daskdf==500].count().sum().compute()

但是这产生了一个“未实现”错误。

在许多情况下，如果有一个行方法尚未在dask中显式实现，则可以使用。在这种情况下，这可能看起来像：

ppdf.map_partitions(lambda df: df[df==500].count()).sum().compute()

您可以尝试在lambda中执行

.sum（）

是否有帮助（它将产生更小的中介体），以及

映射分区的meta=
参数应该是什么样子