Python 3.x Dask-搜索与值匹配的行

Python 3.x Dask-搜索与值匹配的行,python-3.x,dask,dask-distributed,Python 3.x,Dask,Dask Distributed,我正在尝试使用Dask读取一个包含非常大的csv文件的文件夹(这些文件都可以放在内存中,它们非常大,但我有很多RAM)-我当前的解决方案如下所示: val = 'abc' df = dd.read_csv('/home/ubuntu/files-*', parse_dates=['date']) # 1 - df_pd = df.compute(get=dask.multiprocessing.get) ddf_selected = df.map_partitions(lambda x: x[

我正在尝试使用Dask读取一个包含非常大的csv文件的文件夹(这些文件都可以放在内存中,它们非常大,但我有很多RAM)-我当前的解决方案如下所示:

val = 'abc'

df = dd.read_csv('/home/ubuntu/files-*', parse_dates=['date'])
# 1 - df_pd = df.compute(get=dask.multiprocessing.get)
ddf_selected = df.map_partitions(lambda x: x[x['val_col'] == val])
# 2 - ddf_selected.compute(get=dask.multiprocessing.get)

1只(然后使用熊猫)还是2只更好?只是想知道该做什么?

你也可以做以下事情:

ddf_selected = ddf[ddf['val_col'] == val]
就哪个更好而言,这在很大程度上取决于操作。对于不需要内存洗牌的大型数据集,dask.dataframe的性能可能会更好。对于随机访问或完整排序,熊猫可能会表现更好

您可能不想使用多处理计划程序。通常,对于Pandas,我们建议使用线程调度程序或分布式调度程序