分布式Dask配置_Dask_Dask Distributed

分布式Dask配置

dask

分布式Dask配置,dask,dask-distributed,Dask,Dask Distributed,我正在为我们的数据科学家建立一个工作环境。目前，我们有一个运行Jupyterhub的单节点，安装了Anaconda和Dask。（2个插座，6芯，每个芯2个螺纹，140 gb ram）。当用户创建LocalCluster时，当前默认设置是获取所有可用的内核和内存（据我所知）。当显式地完成时，这是可以的，但是我希望标准的LocalCluster使用的少于这个。因为我们所做的几乎每件事都是现在，在查看配置时，我没有看到任何关于内存的n个工作线程、每个工作线程的n个线程、n个内核等的配置，在dask.

我正在为我们的数据科学家建立一个工作环境。目前，我们有一个运行Jupyterhub的单节点，安装了Anaconda和Dask。（2个插座，6芯，每个芯2个螺纹，140 gb ram）。当用户创建LocalCluster时，当前默认设置是获取所有可用的内核和内存（据我所知）。当显式地完成时，这是可以的，但是我希望标准的LocalCluster使用的少于这个。因为我们所做的几乎每件事都是

现在，在查看配置时，我没有看到任何关于内存的n个工作线程、每个工作线程的n个线程、n个内核等的配置，在

dask.config.get（'distributed.worker'）

中，我看到两个与内存相关的选项（

memory

和

memory limit

）都指定了这里列出的行为：

我还研究了jupyterlab dask扩展，它让我可以完成所有这些。然而，我不能强迫人们使用jupyterlab

TL；DR我希望在创建群集时能够设置以下标准配置：

n_工人

进程=错误（我想是吗？）

每工作线程数

每个工作进程或群集的内存限制。我知道这只能是一个软限制

任何关于配置的建议都是非常受欢迎的。

从2019-09-20年起，这项建议尚未实施。我建议在请求时提出一个功能请求，甚至是一个请求。

从2019-09-20起，这一点没有实现。我建议在请求时提出一个特性请求，甚至是一个拉请求