Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/kotlin/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
使用多个GPU和tensorflow.slim.learning进行分布式培训_Tensorflow_Tf Slim - Fatal编程技术网

使用多个GPU和tensorflow.slim.learning进行分布式培训

使用多个GPU和tensorflow.slim.learning进行分布式培训,tensorflow,tf-slim,Tensorflow,Tf Slim,我知道TensorFlow支持分布式培训 我在train\u image\u classifier.py中找到了num\u clone,这样我就可以在本地使用多个GPU python $TF_MODEL_HOME/slim/train_image_classifier.py \ --num_clones=2 --train_dir=${TRAIN_DIR} \ --dataset_name=imagenet \ --dataset_split_name=train \ --dataset_dir

我知道TensorFlow支持分布式培训

我在
train\u image\u classifier.py
中找到了
num\u clone
,这样我就可以在本地使用多个GPU

python $TF_MODEL_HOME/slim/train_image_classifier.py \
--num_clones=2
--train_dir=${TRAIN_DIR} \
--dataset_name=imagenet \
--dataset_split_name=train \
--dataset_dir=${DATASET_DIR} \
--model_name=vgg_19 \
--batch_size=32 \
--max_number_of_steps=100
如何在不同主机上使用多个GPU

您需要使用
--worker\u replicas=
在具有相同数量GPU的多台主机上进行培训。除此之外,如果您在多台主机上进行培训,则必须配置
--task
--num\u ps\u tasks
--sync\u replications
--replications\u to\u aggregate


我建议你试一试。我打算在几天后试一试。

如果我有192.168.0.1和192.168.0.2,每台主机一个gpu,那么我在cmd上运行192.168.0.1,添加
--worker\u replicas=“192.168.0.2”-task=1--num p\u tasks=1--sync\u replicas=true
,对吗?@sns假设两台机器(server1和server2)上各有3个gpu,请提供一个具体的示例,说明应该生成多少个进程,以及您所描述的标志的示例值?您好,有没有可能解释一下
worker\u replica
ps\u tasks
num\u ps\u pasks
task
num\u replica
num\u clone
?@Austin,您了解worker_副本、ps_任务、num_ps_Pask、task、num_副本和num_克隆之间的区别吗?