分布式Dask配置

分布式Dask配置,dask,dask-distributed,Dask,Dask Distributed,我正在为我们的数据科学家建立一个工作环境。目前,我们有一个运行Jupyterhub的单节点,安装了Anaconda和Dask。(2个插座,6芯,每个芯2个螺纹,140 gb ram)。当用户创建LocalCluster时,当前默认设置是获取所有可用的内核和内存(据我所知)。当显式地完成时,这是可以的,但是我希望标准的LocalCluster使用的少于这个。因为我们所做的几乎每件事都是 现在,在查看配置时,我没有看到任何关于内存的n个工作线程、每个工作线程的n个线程、n个内核等的配置,在dask.

我正在为我们的数据科学家建立一个工作环境。目前,我们有一个运行Jupyterhub的单节点,安装了Anaconda和Dask。(2个插座,6芯,每个芯2个螺纹,140 gb ram)。当用户创建LocalCluster时,当前默认设置是获取所有可用的内核和内存(据我所知)。当显式地完成时,这是可以的,但是我希望标准的LocalCluster使用的少于这个。因为我们所做的几乎每件事都是

现在,在查看配置时,我没有看到任何关于内存的n个工作线程、每个工作线程的n个线程、n个内核等的配置,在
dask.config.get('distributed.worker')
中,我看到两个与内存相关的选项(
memory
memory limit
)都指定了这里列出的行为:

我还研究了jupyterlab dask扩展,它让我可以完成所有这些。然而,我不能强迫人们使用jupyterlab

TL;DR我希望在创建群集时能够设置以下标准配置:

  • n_工人
  • 进程=错误(我想是吗?)
  • 每工作线程数
  • 每个工作进程或群集的内存限制。我知道这只能是一个软限制

  • 任何关于配置的建议都是非常受欢迎的。

    从2019-09-20年起,这项建议尚未实施。我建议在请求时提出一个功能请求,甚至是一个请求。

    从2019-09-20起,这一点没有实现。我建议在请求时提出一个特性请求,甚至是一个拉请求