Tensorflow 分布式张量流分配
我有两个关于控制分布式训练的相关问题,这是一个实验,两台机器都有多个GPUTensorflow 分布式张量流分配,tensorflow,distributed-computing,deep-learning,Tensorflow,Distributed Computing,Deep Learning,我有两个关于控制分布式训练的相关问题,这是一个实验,两台机器都有多个GPU 在tensorflow之后,我看到每个流程都实现了数据预处理队列和读卡器;现在,为了通过同步或异步复制培训实现数据并行性,TF如何确保每个工作人员处理一个小型批处理,而其他工作人员在特定的时间段内没有或将不会处理该小型批处理?由于所有队列运行程序都指向同一个数据集,工作人员之间是否存在某种内置的协调机制,以避免在一个历元中多次处理相同的示例(例如同步SGD) 是否也可以为每个工作进程指定GPU设备;作为集群规范的一部分?