Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/apache-kafka/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Fb hydra 使用SLURM和Horovod运行hydra配置的项目_Fb Hydra_Hydra Python - Fatal编程技术网

Fb hydra 使用SLURM和Horovod运行hydra配置的项目

Fb hydra 使用SLURM和Horovod运行hydra配置的项目,fb-hydra,hydra-python,Fb Hydra,Hydra Python,现在,我正在使用Horovod对我的pytorch模型进行分布式培训。我想开始为--multirun特性使用hydra config,并使用SLURM将所有作业排队。我知道有Submitid插件。但我不确定,整个管道将如何与霍洛沃德合作。现在,我的训练指挥如下: CUDA_VISIBLE_DEVICES=2,3 horovodrun -np 2 python training_script.py \ --batch_size 30 \ ... 假设我想使用hydra--multirun来运行几

现在,我正在使用Horovod对我的pytorch模型进行分布式培训。我想开始为--multirun特性使用hydra config,并使用SLURM将所有作业排队。我知道有Submitid插件。但我不确定,整个管道将如何与霍洛沃德合作。现在,我的训练指挥如下:

CUDA_VISIBLE_DEVICES=2,3 horovodrun -np 2 python training_script.py \
--batch_size 30 \
...
假设我想使用hydra--multirun来运行几个多gpu实验,我想使用slurm将运行排队,因为我的资源有限,大部分时间都是按顺序运行的,我想使用Horovod来同步网络的梯度。这个安装程序会开箱即用吗?如果slurm负责资源,我是否需要指定CUDA_可视设备?我需要如何调整我的运行命令或其他设置以使此设置合理?我特别感兴趣的是multirun功能如何处理GPU资源。欢迎提供任何建议。

确实支持GPU分配,但我不熟悉Horovod,也不知道这是否可以与它配合使用。 Hydra 1.0的一个新特性是能够从启动过程中设置或复制环境变量。
如果Horovod试图设置一些环境变量,这可能会派上用场。有关信息,请参阅。

谢谢您的回答。好吧,现在让我们忘掉霍洛沃德吧。如果我手动执行任务,它将如下所示。我会用qsub将每个多gpu实验排队,每个实验都会以某种方式在内部管理gpu资源。hydra中的--multirun和slurm支持是否适合此场景?我只想以几个多gpu进程排队结束,而不必担心gpu分配问题。我有4个GPU,通常想在2个GPU左右运行每个实验。我认为这是合适的,但这更是一个提交人的问题。继续,在GitHub上提出一个问题。开发人员熟悉Hydra插件。您可能需要配置SLURM以支持它。看见