Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/tensorflow/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Tensorflow &引用;在标准ML引擎对象检测培训中通过对等方重置连接_Tensorflow_Google Compute Engine_Object Detection_Google Cloud Ml Engine - Fatal编程技术网

Tensorflow &引用;在标准ML引擎对象检测培训中通过对等方重置连接

Tensorflow &引用;在标准ML引擎对象检测培训中通过对等方重置连接,tensorflow,google-compute-engine,object-detection,google-cloud-ml-engine,Tensorflow,Google Compute Engine,Object Detection,Google Cloud Ml Engine,我的目标是基于对象检测API中的pet训练示例,使用GoogleML引擎测试自定义对象检测训练 在一些成功的训练周期后(可能直到第一个检查点,因为没有创建检查点) 15:46:56.784 全局步长2257:损耗=0.7767(1.70秒/步长) 15:46:56.821 全局步长2258:损耗=1.3547(1.13秒/步长) 。。。我在几个目标检测培训工作试验中收到以下错误: 向协调器报告的错误:,{“已创建”:“@1502286418.246034567”,“说明”:“操作系统错误”,“错

我的目标是基于对象检测API中的pet训练示例,使用GoogleML引擎测试自定义对象检测训练

在一些成功的训练周期后(可能直到第一个检查点,因为没有创建检查点)

15:46:56.784 全局步长2257:损耗=0.7767(1.70秒/步长)

15:46:56.821 全局步长2258:损耗=1.3547(1.13秒/步长)

。。。我在几个目标检测培训工作试验中收到以下错误:

向协调器报告的错误:,{“已创建”:“@1502286418.246034567”,“说明”:“操作系统错误”,“错误号”:104,“文件”:“外部/grpc/src/core/lib/iomgr/tcp_posix.c”,“文件行”:229,“grpc_状态”:14,“操作系统错误”:“对等方重置连接”,“系统调用”:“recvmsg”}

我在worker-replica-0,3和4上收到了它。作业失败后:

命令“['python','-m',u'object\u detection.train',u'-train\u dir=gs://cartrainingbucket/train',u'-pipeline\u config\u path=gs://cartrainingbucket/data/faster\u rcnn\u resnet101.config','-job dir',u'gs://cartrainingbucket/train']”返回非零退出状态-9

我使用的是更快的\u rcnn\u resnet101.config的改编版本,有以下更改:

train_input_reader: {
  tf_record_input_reader {
    input_path: "gs://cartrainingbucket/data/vehicle_train.record"
  }
  label_map_path: "gs://cartrainingbucket/data/vehicle_label_map.pbtxt"
}

eval_config: {
  num_examples: 2000
}

eval_input_reader: {
  tf_record_input_reader {
    input_path: "gs://cartrainingbucket/data/vehicle_val.record"
  }
  label_map_path: "gs://cartrainingbucket/data/vehicle_label_map.pbtxt"
  shuffle: false
  num_readers: 1
}
我的水桶看起来像这样:

cartrainingbucket (Regional US-CENTRAL1)
--data/
  --faster_rcnn_resnet101.config
  --vehicle_label_map.pbtxt
  --vehicle_train.record
  --vehicle_val.record
--train/ 
  --checkpoint
  --events.out.tfevents.1502259105.master-556a4f538e-0-tmt52
  --events.out.tfevents.1502264231.master-d3b4c71824-0-2733w
  --events.out.tfevents.1502267118.master-7f8d859ac5-0-r5h8s
  --events.out.tfevents.1502282824.master-acb4b4f78d-0-9d1mw
  --events.out.tfevents.1502285815.master-1ef3af1094-0-lh9dx
  --graph.pbtxt
  --model.ckpt-0.data-00000-of-00001
  --model.ckpt-0.index
  --model.ckpt-0.meta
  --packages/
我使用以下命令运行作业(使用windows cmd[^should equal]:

gcloud ml-engine jobs submit training stefan_object_detection_09_08_2017i ^
--job-dir=gs://cartrainingbucket/train ^
--packages dist/object_detection-0.1.tar.gz,slim/dist/slim-0.1.tar.gz ^
--module-name object_detection.train ^
--region us-central1 ^
--config object_detection/samples/cloud/cloud.yml ^
-- ^
--train_dir=gs://cartrainingbucket/train ^
--pipeline_config_path=gs://cartrainingbucket/data/faster_rcnn_resnet101.config
cloud.yml是默认值:

trainingInput:
  runtimeVersion: "1.0" # i also tried 1.2, in this case the failure appeared earlier in training
  scaleTier: CUSTOM
  masterType: standard_gpu
  workerCount: 5
  workerType: standard_gpu
  parameterServerCount: 3
  parameterServerType: standard
我使用的是当前最新的Tensorflow模型主分支版本(commit 36203F09DC257569BE2FE3A950DDB2AC25DDDEB)。我本地安装的TF版本是1.2,我使用的是python 3.5.1

我的培训和验证记录都在本地进行培训

对我来说,作为一个新手,很难找到问题的根源。我很乐意得到任何建议。

更新: 由于内存不足,作业失败。请尝试使用较大的计算机

除了Rhartel80的答案外,如果您可以通过cloudml与我们共享项目编号和作业id,这也将很有帮助-feedback@google.com.更新: 由于内存不足,作业失败。请尝试使用较大的计算机


除了Rhartel80的答案外,如果您可以通过cloudml与我们共享项目编号和作业id,这也将很有帮助-feedback@google.com.一种可能性是TF进程占用了太多的资源(通常是内存)并被操作系统终止。这可以解释对等机重置连接的原因


因此,可以尝试的一件事是使用一个具有更多资源的层/机器。

一种可能性是TF进程正在使用大量资源(通常是内存)并被操作系统终止。这可以解释对等机重置连接的原因


因此,可以尝试的一件事是使用一个具有更多资源的层/机器。

您的参数服务器可能会宕机。有一些技术可以更健壮地实现这一点,但我们需要验证您的代码。它是否可用?它与pet示例有多相似?如果您向我们提供日志转储,这可能会有所帮助。我们正在对Ariel ima进行培训被裁剪为大约1000x1000像素的切片的ges。在一些图像上有大约50个对象。我们禁用了从检查点学习。您的参数服务器可能已关闭。有一些技术可以更可靠地实现这一点,但我们需要验证您的代码。它可用吗?它与pet示例有多相似?它可能对我也有帮助如果您向我们提供了日志转储。我们正在对裁剪为约1000x1000像素切片的arieal图像进行培训。在某些图像上有大约50个对象。我们禁用了从检查点学习。