如何使用分布式dask调度程序在工作进程上加载文件?

如何使用分布式dask调度程序在工作进程上加载文件?,dask,dask-distributed,Dask,Dask Distributed,我手动设置了一个dask调度程序和一个dask工作程序。他们在日志上看到了对方 我有一个比调度器(我的jupyter笔记本也在那里运行)更大的文件位于同一台机器上 但是当我加载带有dd.read\u csv的文件时,我有一个常见的错误,即没有这样的文件或目录 我理解数据局部性问题,但如何将文件透明地发送到集群 我无法在或中找到(或理解?),您可以将文件作为Python对象(如熊猫数据帧或numpy数组)加载到笔记本中,然后将其分发给工作人员。您还可以查看Client.upload\u file方

我手动设置了一个dask调度程序和一个dask工作程序。他们在日志上看到了对方

我有一个比调度器(我的jupyter笔记本也在那里运行)更大的文件位于同一台机器上

但是当我加载带有
dd.read\u csv
的文件时,我有一个常见的
错误,即没有这样的文件或目录

我理解数据局部性问题,但如何将文件透明地发送到集群


我无法在或

中找到(或理解?),您可以将文件作为Python对象(如熊猫数据帧或numpy数组)加载到笔记本中,然后将其分发给工作人员。您还可以查看
Client.upload\u file
方法。

是共享文件系统还是
scp
选项?是。这是一个解决办法。但我想知道dask中是否实现了某些功能。Dask可以将文件从客户端复制到工作节点,但这并不适用于大型数据文件。好的!谢谢你的澄清。我不会花时间搜索不存在的东西:)