使用多个GPU和tensorflow.slim.learning进行分布式培训
我知道TensorFlow支持分布式培训 我在使用多个GPU和tensorflow.slim.learning进行分布式培训,tensorflow,tf-slim,Tensorflow,Tf Slim,我知道TensorFlow支持分布式培训 我在train\u image\u classifier.py中找到了num\u clone,这样我就可以在本地使用多个GPU python $TF_MODEL_HOME/slim/train_image_classifier.py \ --num_clones=2 --train_dir=${TRAIN_DIR} \ --dataset_name=imagenet \ --dataset_split_name=train \ --dataset_dir
train\u image\u classifier.py
中找到了num\u clone
,这样我就可以在本地使用多个GPU
python $TF_MODEL_HOME/slim/train_image_classifier.py \
--num_clones=2
--train_dir=${TRAIN_DIR} \
--dataset_name=imagenet \
--dataset_split_name=train \
--dataset_dir=${DATASET_DIR} \
--model_name=vgg_19 \
--batch_size=32 \
--max_number_of_steps=100
如何在不同主机上使用多个GPU 您需要使用--worker\u replicas=
在具有相同数量GPU的多台主机上进行培训。除此之外,如果您在多台主机上进行培训,则必须配置--task
,--num\u ps\u tasks
,--sync\u replications
,--replications\u to\u aggregate
我建议你试一试。我打算在几天后试一试。如果我有192.168.0.1和192.168.0.2,每台主机一个gpu,那么我在cmd上运行192.168.0.1,添加
--worker\u replicas=“192.168.0.2”-task=1--num p\u tasks=1--sync\u replicas=true
,对吗?@sns假设两台机器(server1和server2)上各有3个gpu,请提供一个具体的示例,说明应该生成多少个进程,以及您所描述的标志的示例值?您好,有没有可能解释一下worker\u replica
,ps\u tasks
,num\u ps\u pasks
,task
,num\u replica
,num\u clone
?@Austin,您了解worker_副本、ps_任务、num_ps_Pask、task、num_副本和num_克隆之间的区别吗?