Tensorflow 训练过程中记录被破坏

Tensorflow 训练过程中记录被破坏,tensorflow,Tensorflow,我昨晚训练了一个神经网络,结果它崩溃了。我有两个问题: 是什么导致了这个错误 我怎样才能防止它再次发生 两个主要错误是: 错误:tensorflow:QueueRunner中出现异常:52284962154处的记录已损坏 DataLossError(回溯见上文):52284962154处的损坏记录 编辑 同样的代码在另一台机器上使用,大约6小时后,它以同样的错误崩溃。号码52284962154相同。问题是写入错误。再次将数据转换为TFRecords后,错误消失。现在它可以超越步骤30747。听起

我昨晚训练了一个神经网络,结果它崩溃了。我有两个问题:

  • 是什么导致了这个错误
  • 我怎样才能防止它再次发生
  • 两个主要错误是:

  • 错误:tensorflow:QueueRunner中出现异常:52284962154处的记录已损坏
  • DataLossError(回溯见上文):52284962154处的损坏记录
  • 编辑


    同样的代码在另一台机器上使用,大约6小时后,它以同样的错误崩溃。号码52284962154相同。

    问题是写入错误。再次将数据转换为TFRecords后,错误消失。现在它可以超越步骤30747。

    听起来确实像个bug。你能?如果你能将问题归结为bug报告中包含的最小复制,这将非常有帮助,但不管怎样,完整的跟踪都会有所帮助。再次运行一夜,在相同的数字上得到相同的错误。52284962154我将提交一个问题。@AllenLavoie,错误是可复制的。我们有1300万个33x33x3修补程序,并以256个批次运行。它将在步骤30747退出。我怀疑这是写入过程中损坏的TF记录。现在最好做什么?当你指的是写错误时?你在暗示什么?培训时是否需要再次运行相同的脚本?