Tensorflow 分布式张量流分配_Tensorflow_Distributed Computing_Deep Learning

Tensorflow 分布式张量流分配

tensorflow deep-learning

Tensorflow 分布式张量流分配,tensorflow,distributed-computing,deep-learning,Tensorflow,Distributed Computing,Deep Learning,我有两个关于控制分布式训练的相关问题，这是一个实验，两台机器都有多个GPU 在tensorflow之后，我看到每个流程都实现了数据预处理队列和读卡器；现在，为了通过同步或异步复制培训实现数据并行性，TF如何确保每个工作人员处理一个小型批处理，而其他工作人员在特定的时间段内没有或将不会处理该小型批处理？由于所有队列运行程序都指向同一个数据集，工作人员之间是否存在某种内置的协调机制，以避免在一个历元中多次处理相同的示例（例如同步SGD）是否也可以为每个工作进程指定GPU设备；作为集群规范的一部分？

我有两个关于控制分布式训练的相关问题，这是一个实验，两台机器都有多个GPU

在tensorflow之后，我看到每个流程都实现了数据预处理队列和读卡器；现在，为了通过同步或异步复制培训实现数据并行性，TF如何确保每个工作人员处理一个小型批处理，而其他工作人员在特定的时间段内没有或将不会处理该小型批处理？由于所有队列运行程序都指向同一个数据集，工作人员之间是否存在某种内置的协调机制，以避免在一个历元中多次处理相同的示例（例如同步SGD）

是否也可以为每个工作进程指定GPU设备；作为集群规范的一部分？或者在运行培训操作或其他操作时，需要在代码中提到它吗？还是不建议这样做