Tensorflow 分布式训练中的tf.train.batch返回OutOfRange错误_Tensorflow_Pyspark

Tensorflow 分布式训练中的tf.train.batch返回OutOfRange错误

tensorflow pyspark

Tensorflow 分布式训练中的tf.train.batch返回OutOfRange错误,tensorflow,pyspark,Tensorflow,Pyspark,我使用分布式tensorflow从HDFS路径读取数据文件以进行训练每个工人将运行tf.train.batch从同一组文件中检索数据批。我多次尝试重新运行该程序。对于每次运行，当有文件要读取时，不一致的工作人员子集将在培训开始时返回OutOfRangeError。它将抛出： FIFOQueue'\u 0\u batch\u csv/fifo\u queue'已关闭且元素不足（请求2048，当前大小为0）将HDFS路径中的内容排入队列的线程太慢了吗？谢谢，我知道这类问题，所以我做了一些检查。但

我使用分布式tensorflow从HDFS路径读取数据文件以进行训练

每个工人将运行

tf.train.batch

从同一组文件中检索数据批。我多次尝试重新运行该程序。对于每次运行，当有文件要读取时，不一致的工作人员子集将在培训开始时返回

OutOfRangeError

。它将抛出：

FIFOQueue'\u 0\u batch\u csv/fifo\u queue'已关闭且元素不足（请求2048，当前大小为0）

将HDFS路径中的内容排入队列的线程太慢了吗？

谢谢，我知道这类问题，所以我做了一些检查。但正如我所提到的，每个工作者的逻辑是相同的，他们正在读取相同的文件集。但只有一些人会抛出这个错误。因此，我认为问题不在于路径/文件名。附带说明的是，一些队列使用相同的数据排队两次，这不是有意的。谢谢，我知道这类问题，所以我做了一些检查。但正如我所提到的，每个工作者的逻辑是相同的，他们正在读取相同的文件集。但只有一些人会抛出这个错误。因此，我认为问题不在于路径/文件名。另一个注意事项是，一些队列使用相同的数据排队两次，这不是有意的。