Tensorflow 分布式训练中的tf.train.batch返回OutOfRange错误

Tensorflow 分布式训练中的tf.train.batch返回OutOfRange错误,tensorflow,pyspark,Tensorflow,Pyspark,我使用分布式tensorflow从HDFS路径读取数据文件以进行训练 每个工人将运行tf.train.batch从同一组文件中检索数据批。我多次尝试重新运行该程序。对于每次运行,当有文件要读取时,不一致的工作人员子集将在培训开始时返回OutOfRangeError。它将抛出: FIFOQueue'\u 0\u batch\u csv/fifo\u queue'已关闭且元素不足(请求2048,当前大小为0) 将HDFS路径中的内容排入队列的线程太慢了吗?谢谢,我知道这类问题,所以我做了一些检查。但

我使用分布式tensorflow从HDFS路径读取数据文件以进行训练

每个工人将运行
tf.train.batch
从同一组文件中检索数据批。我多次尝试重新运行该程序。对于每次运行,当有文件要读取时,不一致的工作人员子集将在培训开始时返回
OutOfRangeError
。它将抛出:

FIFOQueue'\u 0\u batch\u csv/fifo\u queue'已关闭且元素不足(请求2048,当前大小为0)


将HDFS路径中的内容排入队列的线程太慢了吗?

谢谢,我知道这类问题,所以我做了一些检查。但正如我所提到的,每个工作者的逻辑是相同的,他们正在读取相同的文件集。但只有一些人会抛出这个错误。因此,我认为问题不在于路径/文件名。附带说明的是,一些队列使用相同的数据排队两次,这不是有意的。谢谢,我知道这类问题,所以我做了一些检查。但正如我所提到的,每个工作者的逻辑是相同的,他们正在读取相同的文件集。但只有一些人会抛出这个错误。因此,我认为问题不在于路径/文件名。另一个注意事项是,一些队列使用相同的数据排队两次,这不是有意的。