如何在gcloud kubernetes群集上放置数据集?

如何在gcloud kubernetes群集上放置数据集?,kubernetes,google-cloud-platform,dask,dask-distributed,Kubernetes,Google Cloud Platform,Dask,Dask Distributed,我初始化了一个gcloud Kubernetes集群,我正在本地机器上使用一个Dask客户端连接到集群,但是我似乎找不到任何关于如何将数据集上载到集群的文档 我最初尝试在本地运行Dask,并将数据集加载到本地RAM中,但显然这是通过网络发送的,执行任务时集群的利用率仅为2% 有没有办法将数据集放到Kubernetes群集上,这样我就可以获得100%的CPU利用率?许多人将数据存储在云对象存储上,比如亚马逊的S3、谷歌云存储 如果您对Dask特别感兴趣,则大多数数据摄取功能都支持这些数据存储,方法

我初始化了一个gcloud Kubernetes集群,我正在本地机器上使用一个Dask客户端连接到集群,但是我似乎找不到任何关于如何将数据集上载到集群的文档

我最初尝试在本地运行Dask,并将数据集加载到本地RAM中,但显然这是通过网络发送的,执行任务时集群的利用率仅为2%


有没有办法将数据集放到Kubernetes群集上,这样我就可以获得100%的CPU利用率?

许多人将数据存储在云对象存储上,比如亚马逊的S3、谷歌云存储

如果您对Dask特别感兴趣,则大多数数据摄取功能都支持这些数据存储,方法是使用如下协议:

import dask.dataframe as dd
df = dd.read_csv('gcs://bucket/2018-*-*.csv')

您还需要安装相关的Python库来访问此云存储(本例中为gcsfs)。有关更多信息,请参阅。

谢谢。因此,如果我在本地Jupyter笔记本中使用该方法,它会加载到集群上,而不是首先通过我的计算机加载吗?数据加载将发生在集群的工作人员中。本地客户端也需要访问数据存储,以查找文件数量并加载任何元数据,通常带宽要小得多。@mdurant@mrocklin因此我让Dask读取我的bucket数据集,但是,当我在集群上运行它时,我得到了以下信息:
/opt/conda/envs/dask/lib/python3.6/site-packages/distributed/protocol/pickle.py in loads()ModuleNotFoundError:没有名为“gcsfs”的模块
我建议在安装工作人员的任何地方运行
pip install gcsfs
conda install gcsfs
。如果使用dask-kubernetes,请参阅