如何在gcloud kubernetes群集上放置数据集？_Kubernetes_Google Cloud Platform_Dask_Dask Distributed

如何在gcloud kubernetes群集上放置数据集？

kubernetes google-cloud-platform dask

如何在gcloud kubernetes群集上放置数据集？,kubernetes,google-cloud-platform,dask,dask-distributed,Kubernetes,Google Cloud Platform,Dask,Dask Distributed,我初始化了一个gcloud Kubernetes集群，我正在本地机器上使用一个Dask客户端连接到集群，但是我似乎找不到任何关于如何将数据集上载到集群的文档我最初尝试在本地运行Dask，并将数据集加载到本地RAM中，但显然这是通过网络发送的，执行任务时集群的利用率仅为2% 有没有办法将数据集放到Kubernetes群集上，这样我就可以获得100%的CPU利用率？许多人将数据存储在云对象存储上，比如亚马逊的S3、谷歌云存储如果您对Dask特别感兴趣，则大多数数据摄取功能都支持这些数据存储，方法

我初始化了一个gcloud Kubernetes集群，我正在本地机器上使用一个Dask客户端连接到集群，但是我似乎找不到任何关于如何将数据集上载到集群的文档

我最初尝试在本地运行Dask，并将数据集加载到本地RAM中，但显然这是通过网络发送的，执行任务时集群的利用率仅为2%

有没有办法将数据集放到Kubernetes群集上，这样我就可以获得100%的CPU利用率？

许多人将数据存储在云对象存储上，比如亚马逊的S3、谷歌云存储

如果您对Dask特别感兴趣，则大多数数据摄取功能都支持这些数据存储，方法是使用如下协议：

import dask.dataframe as dd
df = dd.read_csv('gcs://bucket/2018-*-*.csv')

您还需要安装相关的Python库来访问此云存储（本例中为gcsfs）。有关更多信息，请参阅。

谢谢。因此，如果我在本地Jupyter笔记本中使用该方法，它会加载到集群上，而不是首先通过我的计算机加载吗？数据加载将发生在集群的工作人员中。本地客户端也需要访问数据存储，以查找文件数量并加载任何元数据，通常带宽要小得多。@mdurant@mrocklin因此我让Dask读取我的bucket数据集，但是，当我在集群上运行它时，我得到了以下信息：

/opt/conda/envs/dask/lib/python3.6/site-packages/distributed/protocol/pickle.py in loads（）ModuleNotFoundError:没有名为“gcsfs”的模块

我建议在安装工作人员的任何地方运行

pip install gcsfs

或

conda install gcsfs

。如果使用dask-kubernetes，请参阅