Dask 如何在不使用hdfs的情况下并行计算每个worker上的csv文件存储?

Dask 如何在不使用hdfs的情况下并行计算每个worker上的csv文件存储?,dask,dask-delayed,Dask,Dask Delayed,这一概念与hadoop上的数据本地化相同,但我不想使用hdfs 我有三个工人 我想计算一个大的csv文件名,例如mydata.csv 我将mydata.csv拆分为一个小文件(mydata\u part\u 001.csv…mydata\u part\u 100.csv),并存储在每个工人的本地文件夹/数据中 e、 g worker-01将mydata_part_001.csv-mydata_part_030.csv存储在本地文件夹/数据中 worker-02将mydata_part_031.c

这一概念与hadoop上的数据本地化相同,但我不想使用hdfs

我有三个工人

我想计算一个大的csv文件名,例如mydata.csv

我将mydata.csv拆分为一个小文件(mydata\u part\u 001.csv…mydata\u part\u 100.csv),并存储在每个工人的本地文件夹/数据中 e、 g

worker-01将mydata_part_001.csv-mydata_part_030.csv存储在本地文件夹/数据中

worker-02将mydata_part_031.csv-mydata_part_060.csv存储在本地文件夹/数据中

worker-03将mydata_part_061.csv-mydata_part_100.csv存储在本地文件夹/数据中

如何使用dask计算mydata??
谢谢。

使用某种全局可访问的文件系统更常见。HDFS就是一个例子,但也存在其他几种网络文件系统(NFS)。我建议您研究这些问题,而不是自己以这种方式管理数据


然而,如果您想这样做,那么您可能正在寻找Dask,它允许您将特定任务定向到特定的机器

您的工作人员是生活在同一台机器上还是分布式集群上?