Dask 如何在不使用hdfs的情况下并行计算每个worker上的csv文件存储？_Dask_Dask Delayed

Dask 如何在不使用hdfs的情况下并行计算每个worker上的csv文件存储？

dask

Dask 如何在不使用hdfs的情况下并行计算每个worker上的csv文件存储？,dask,dask-delayed,Dask,Dask Delayed,这一概念与hadoop上的数据本地化相同，但我不想使用hdfs 我有三个工人我想计算一个大的csv文件名，例如mydata.csv 我将mydata.csv拆分为一个小文件（mydata\u part\u 001.csv…mydata\u part\u 100.csv），并存储在每个工人的本地文件夹/数据中 e、 g worker-01将mydata_part_001.csv-mydata_part_030.csv存储在本地文件夹/数据中 worker-02将mydata_part_031.c

这一概念与hadoop上的数据本地化相同，但我不想使用hdfs

我有三个工人

我想计算一个大的csv文件名，例如mydata.csv

我将mydata.csv拆分为一个小文件（mydata\u part\u 001.csv…mydata\u part\u 100.csv），并存储在每个工人的本地文件夹/数据中 e、 g

worker-01将mydata_part_001.csv-mydata_part_030.csv存储在本地文件夹/数据中

worker-02将mydata_part_031.csv-mydata_part_060.csv存储在本地文件夹/数据中

worker-03将mydata_part_061.csv-mydata_part_100.csv存储在本地文件夹/数据中

如何使用dask计算mydata？？

谢谢。

使用某种全局可访问的文件系统更常见。HDFS就是一个例子，但也存在其他几种网络文件系统（NFS）。我建议您研究这些问题，而不是自己以这种方式管理数据

然而，如果您想这样做，那么您可能正在寻找Dask，它允许您将特定任务定向到特定的机器

您的工作人员是生活在同一台机器上还是分布式集群上？