Tensorflow &引用；在标准ML引擎对象检测培训中通过对等方重置连接_Tensorflow_Google Compute Engine_Object Detection_Google Cloud Ml Engine

Tensorflow &引用；在标准ML引擎对象检测培训中通过对等方重置连接

tensorflow google-compute-engine

Tensorflow &引用；在标准ML引擎对象检测培训中通过对等方重置连接,tensorflow,google-compute-engine,object-detection,google-cloud-ml-engine,Tensorflow,Google Compute Engine,Object Detection,Google Cloud Ml Engine,我的目标是基于对象检测API中的pet训练示例，使用GoogleML引擎测试自定义对象检测训练在一些成功的训练周期后（可能直到第一个检查点，因为没有创建检查点） 15:46:56.784 全局步长2257：损耗=0.7767（1.70秒/步长） 15:46:56.821 全局步长2258：损耗=1.3547（1.13秒/步长）。。。我在几个目标检测培训工作试验中收到以下错误：向协调器报告的错误：，{“已创建”：“@1502286418.246034567”，“说明”：“操作系统错误”，“错

我的目标是基于对象检测API中的pet训练示例，使用GoogleML引擎测试自定义对象检测训练

在一些成功的训练周期后（可能直到第一个检查点，因为没有创建检查点）

15:46:56.784 全局步长2257：损耗=0.7767（1.70秒/步长）

15:46:56.821 全局步长2258：损耗=1.3547（1.13秒/步长）

。。。我在几个目标检测培训工作试验中收到以下错误：

向协调器报告的错误：，{“已创建”：“@1502286418.246034567”，“说明”：“操作系统错误”，“错误号”：104，“文件”：“外部/grpc/src/core/lib/iomgr/tcp_posix.c”，“文件行”：229，“grpc_状态”：14，“操作系统错误”：“对等方重置连接”，“系统调用”：“recvmsg”}

我在worker-replica-0,3和4上收到了它。作业失败后：

命令“['python'，'-m'，u'object\u detection.train'，u'-train\u dir=gs://cartrainingbucket/train'，u'-pipeline\u config\u path=gs://cartrainingbucket/data/faster\u rcnn\u resnet101.config'，'-job dir'，u'gs://cartrainingbucket/train']”返回非零退出状态-9

我使用的是更快的\u rcnn\u resnet101.config的改编版本，有以下更改：

train_input_reader: {
  tf_record_input_reader {
    input_path: "gs://cartrainingbucket/data/vehicle_train.record"
  }
  label_map_path: "gs://cartrainingbucket/data/vehicle_label_map.pbtxt"
}

eval_config: {
  num_examples: 2000
}

eval_input_reader: {
  tf_record_input_reader {
    input_path: "gs://cartrainingbucket/data/vehicle_val.record"
  }
  label_map_path: "gs://cartrainingbucket/data/vehicle_label_map.pbtxt"
  shuffle: false
  num_readers: 1
}

我的水桶看起来像这样：

cartrainingbucket (Regional US-CENTRAL1)
--data/
  --faster_rcnn_resnet101.config
  --vehicle_label_map.pbtxt
  --vehicle_train.record
  --vehicle_val.record
--train/ 
  --checkpoint
  --events.out.tfevents.1502259105.master-556a4f538e-0-tmt52
  --events.out.tfevents.1502264231.master-d3b4c71824-0-2733w
  --events.out.tfevents.1502267118.master-7f8d859ac5-0-r5h8s
  --events.out.tfevents.1502282824.master-acb4b4f78d-0-9d1mw
  --events.out.tfevents.1502285815.master-1ef3af1094-0-lh9dx
  --graph.pbtxt
  --model.ckpt-0.data-00000-of-00001
  --model.ckpt-0.index
  --model.ckpt-0.meta
  --packages/

我使用以下命令运行作业（使用windows cmd[^should equal]：

gcloud ml-engine jobs submit training stefan_object_detection_09_08_2017i ^
--job-dir=gs://cartrainingbucket/train ^
--packages dist/object_detection-0.1.tar.gz,slim/dist/slim-0.1.tar.gz ^
--module-name object_detection.train ^
--region us-central1 ^
--config object_detection/samples/cloud/cloud.yml ^
-- ^
--train_dir=gs://cartrainingbucket/train ^
--pipeline_config_path=gs://cartrainingbucket/data/faster_rcnn_resnet101.config

cloud.yml是默认值：

trainingInput:
  runtimeVersion: "1.0" # i also tried 1.2, in this case the failure appeared earlier in training
  scaleTier: CUSTOM
  masterType: standard_gpu
  workerCount: 5
  workerType: standard_gpu
  parameterServerCount: 3
  parameterServerType: standard

我使用的是当前最新的Tensorflow模型主分支版本（commit 36203F09DC257569BE2FE3A950DDB2AC25DDDEB）。我本地安装的TF版本是1.2，我使用的是python 3.5.1

我的培训和验证记录都在本地进行培训

对我来说，作为一个新手，很难找到问题的根源。我很乐意得到任何建议。

更新：由于内存不足，作业失败。请尝试使用较大的计算机

除了Rhartel80的答案外，如果您可以通过cloudml与我们共享项目编号和作业id，这也将很有帮助-feedback@google.com.更新：由于内存不足，作业失败。请尝试使用较大的计算机

除了Rhartel80的答案外，如果您可以通过cloudml与我们共享项目编号和作业id，这也将很有帮助-feedback@google.com.一种可能性是TF进程占用了太多的资源（通常是内存）并被操作系统终止。这可以解释对等机重置连接的原因

因此，可以尝试的一件事是使用一个具有更多资源的层/机器。

一种可能性是TF进程正在使用大量资源（通常是内存）并被操作系统终止。这可以解释对等机重置连接的原因

因此，可以尝试的一件事是使用一个具有更多资源的层/机器。

您的参数服务器可能会宕机。有一些技术可以更健壮地实现这一点，但我们需要验证您的代码。它是否可用？它与pet示例有多相似？如果您向我们提供日志转储，这可能会有所帮助。我们正在对Ariel ima进行培训被裁剪为大约1000x1000像素的切片的ges。在一些图像上有大约50个对象。我们禁用了从检查点学习。您的参数服务器可能已关闭。有一些技术可以更可靠地实现这一点，但我们需要验证您的代码。它可用吗？它与pet示例有多相似？它可能对我也有帮助如果您向我们提供了日志转储。我们正在对裁剪为约1000x1000像素切片的arieal图像进行培训。在某些图像上有大约50个对象。我们禁用了从检查点学习。