使用多个GPU和tensorflow.slim.learning进行分布式培训_Tensorflow_Tf Slim

使用多个GPU和tensorflow.slim.learning进行分布式培训

tensorflow

使用多个GPU和tensorflow.slim.learning进行分布式培训,tensorflow,tf-slim,Tensorflow,Tf Slim,我知道TensorFlow支持分布式培训我在train\u image\u classifier.py中找到了num\u clone，这样我就可以在本地使用多个GPU python $TF_MODEL_HOME/slim/train_image_classifier.py \ --num_clones=2 --train_dir=${TRAIN_DIR} \ --dataset_name=imagenet \ --dataset_split_name=train \ --dataset_dir

我知道TensorFlow支持分布式培训

我在

train\u image\u classifier.py

中找到了

num\u clone

，这样我就可以在本地使用多个GPU

python $TF_MODEL_HOME/slim/train_image_classifier.py \
--num_clones=2
--train_dir=${TRAIN_DIR} \
--dataset_name=imagenet \
--dataset_split_name=train \
--dataset_dir=${DATASET_DIR} \
--model_name=vgg_19 \
--batch_size=32 \
--max_number_of_steps=100

如何在不同主机上使用多个GPU

您需要使用

--worker\u replicas=

在具有相同数量GPU的多台主机上进行培训。除此之外，如果您在多台主机上进行培训，则必须配置

--task

，

--num\u ps\u tasks

，

--sync\u replications

，

--replications\u to\u aggregate

我建议你试一试。我打算在几天后试一试。

如果我有192.168.0.1和192.168.0.2，每台主机一个gpu，那么我在cmd上运行192.168.0.1，添加

--worker\u replicas=“192.168.0.2”-task=1--num p\u tasks=1--sync\u replicas=true

，对吗？@sns假设两台机器（server1和server2）上各有3个gpu，请提供一个具体的示例，说明应该生成多少个进程，以及您所描述的标志的示例值？您好，有没有可能解释一下

worker\u replica

，

ps\u tasks

，

num\u ps\u pasks

，

task

，

num\u replica

，

num\u clone

？@Austin，您了解worker_副本、ps_任务、num_ps_Pask、task、num_副本和num_克隆之间的区别吗？