如何使用正确配置的参数服务器在SLURM集群上运行Tensorflow？_Tensorflow_Distributed Computing_Slurm_Multi Gpu_Sbatch

如何使用正确配置的参数服务器在SLURM集群上运行Tensorflow？

tensorflow

如何使用正确配置的参数服务器在SLURM集群上运行Tensorflow？,tensorflow,distributed-computing,slurm,multi-gpu,sbatch,Tensorflow,Distributed Computing,Slurm,Multi Gpu,Sbatch,我很幸运能够访问我所在大学的SLURM驱动的GPU集群。我一直试图让Tensorflow在集群节点中运行，但到目前为止，我没有找到任何文档。（与我交谈过的大学里的每个人都在使用CPU节点之前或使用单个GPU节点运行它我从上一个问题中找到了一个非常好的文档。不幸的是，它相当不完整。我发现的所有其他分布式示例（例如一个）都依赖于显式指定参数服务器当我尝试使用SO问题中的代码运行它时，我似乎工作得很好，直到它无法连接到不存在的参数服务器，或者在调用server.join并且没有向sbatch ou

我很幸运能够访问我所在大学的SLURM驱动的GPU集群。我一直试图让Tensorflow在集群节点中运行，但到目前为止，我没有找到任何文档。（与我交谈过的大学里的每个人都在使用CPU节点之前或使用单个GPU节点运行它

我从上一个问题中找到了一个非常好的文档。不幸的是，它相当不完整。我发现的所有其他分布式示例（例如一个）都依赖于显式指定参数服务器

当我尝试使用SO问题中的代码运行它时，我似乎工作得很好，直到它无法连接到不存在的参数服务器，或者在调用server.join并且没有向sbatch outfile提供打印输出时挂起（我理解应该发生这种情况）

简而言之，我的问题是如何在SLURM集群上启动Tensorflow？从sbatch阶段开始。这是我第一次在AWS上处理SPARK之外的分布式计算框架，我想了解更多关于如何正确配置Tensorflow的信息。如何指定tf_主机列表中的哪一项例如，服务器作为参数服务器？或者，我可以像在其他示例中看到的那样，使用sbatch向每个工作人员发送稍微不同的命令吗？