Python 3.x Dask-搜索与值匹配的行_Python 3.x_Dask_Dask Distributed

Python 3.x Dask-搜索与值匹配的行

python-3.x dask

Python 3.x Dask-搜索与值匹配的行,python-3.x,dask,dask-distributed,Python 3.x,Dask,Dask Distributed,我正在尝试使用Dask读取一个包含非常大的csv文件的文件夹（这些文件都可以放在内存中，它们非常大，但我有很多RAM）-我当前的解决方案如下所示： val = 'abc' df = dd.read_csv('/home/ubuntu/files-*', parse_dates=['date']) # 1 - df_pd = df.compute(get=dask.multiprocessing.get) ddf_selected = df.map_partitions(lambda x: x[

我正在尝试使用Dask读取一个包含非常大的csv文件的文件夹（这些文件都可以放在内存中，它们非常大，但我有很多RAM）-我当前的解决方案如下所示：

val = 'abc'

df = dd.read_csv('/home/ubuntu/files-*', parse_dates=['date'])
# 1 - df_pd = df.compute(get=dask.multiprocessing.get)
ddf_selected = df.map_partitions(lambda x: x[x['val_col'] == val])
# 2 - ddf_selected.compute(get=dask.multiprocessing.get)

1只（然后使用熊猫）还是2只更好？只是想知道该做什么？

你也可以做以下事情：

ddf_selected = ddf[ddf['val_col'] == val]

就哪个更好而言，这在很大程度上取决于操作。对于不需要内存洗牌的大型数据集，dask.dataframe的性能可能会更好。对于随机访问或完整排序，熊猫可能会表现更好

您可能不想使用多处理计划程序。通常，对于Pandas，我们建议使用线程调度程序或分布式调度程序