Tensorflow &引用;在标准ML引擎对象检测培训中通过对等方重置连接
我的目标是基于对象检测API中的pet训练示例,使用GoogleML引擎测试自定义对象检测训练 在一些成功的训练周期后(可能直到第一个检查点,因为没有创建检查点) 15:46:56.784 全局步长2257:损耗=0.7767(1.70秒/步长) 15:46:56.821 全局步长2258:损耗=1.3547(1.13秒/步长) 。。。我在几个目标检测培训工作试验中收到以下错误: 向协调器报告的错误:,{“已创建”:“@1502286418.246034567”,“说明”:“操作系统错误”,“错误号”:104,“文件”:“外部/grpc/src/core/lib/iomgr/tcp_posix.c”,“文件行”:229,“grpc_状态”:14,“操作系统错误”:“对等方重置连接”,“系统调用”:“recvmsg”} 我在worker-replica-0,3和4上收到了它。作业失败后: 命令“['python','-m',u'object\u detection.train',u'-train\u dir=gs://cartrainingbucket/train',u'-pipeline\u config\u path=gs://cartrainingbucket/data/faster\u rcnn\u resnet101.config','-job dir',u'gs://cartrainingbucket/train']”返回非零退出状态-9 我使用的是更快的\u rcnn\u resnet101.config的改编版本,有以下更改:Tensorflow &引用;在标准ML引擎对象检测培训中通过对等方重置连接,tensorflow,google-compute-engine,object-detection,google-cloud-ml-engine,Tensorflow,Google Compute Engine,Object Detection,Google Cloud Ml Engine,我的目标是基于对象检测API中的pet训练示例,使用GoogleML引擎测试自定义对象检测训练 在一些成功的训练周期后(可能直到第一个检查点,因为没有创建检查点) 15:46:56.784 全局步长2257:损耗=0.7767(1.70秒/步长) 15:46:56.821 全局步长2258:损耗=1.3547(1.13秒/步长) 。。。我在几个目标检测培训工作试验中收到以下错误: 向协调器报告的错误:,{“已创建”:“@1502286418.246034567”,“说明”:“操作系统错误”,“错
train_input_reader: {
tf_record_input_reader {
input_path: "gs://cartrainingbucket/data/vehicle_train.record"
}
label_map_path: "gs://cartrainingbucket/data/vehicle_label_map.pbtxt"
}
eval_config: {
num_examples: 2000
}
eval_input_reader: {
tf_record_input_reader {
input_path: "gs://cartrainingbucket/data/vehicle_val.record"
}
label_map_path: "gs://cartrainingbucket/data/vehicle_label_map.pbtxt"
shuffle: false
num_readers: 1
}
我的水桶看起来像这样:
cartrainingbucket (Regional US-CENTRAL1)
--data/
--faster_rcnn_resnet101.config
--vehicle_label_map.pbtxt
--vehicle_train.record
--vehicle_val.record
--train/
--checkpoint
--events.out.tfevents.1502259105.master-556a4f538e-0-tmt52
--events.out.tfevents.1502264231.master-d3b4c71824-0-2733w
--events.out.tfevents.1502267118.master-7f8d859ac5-0-r5h8s
--events.out.tfevents.1502282824.master-acb4b4f78d-0-9d1mw
--events.out.tfevents.1502285815.master-1ef3af1094-0-lh9dx
--graph.pbtxt
--model.ckpt-0.data-00000-of-00001
--model.ckpt-0.index
--model.ckpt-0.meta
--packages/
我使用以下命令运行作业(使用windows cmd[^should equal]:
gcloud ml-engine jobs submit training stefan_object_detection_09_08_2017i ^
--job-dir=gs://cartrainingbucket/train ^
--packages dist/object_detection-0.1.tar.gz,slim/dist/slim-0.1.tar.gz ^
--module-name object_detection.train ^
--region us-central1 ^
--config object_detection/samples/cloud/cloud.yml ^
-- ^
--train_dir=gs://cartrainingbucket/train ^
--pipeline_config_path=gs://cartrainingbucket/data/faster_rcnn_resnet101.config
cloud.yml是默认值:
trainingInput:
runtimeVersion: "1.0" # i also tried 1.2, in this case the failure appeared earlier in training
scaleTier: CUSTOM
masterType: standard_gpu
workerCount: 5
workerType: standard_gpu
parameterServerCount: 3
parameterServerType: standard
我使用的是当前最新的Tensorflow模型主分支版本(commit 36203F09DC257569BE2FE3A950DDB2AC25DDDEB)。我本地安装的TF版本是1.2,我使用的是python 3.5.1
我的培训和验证记录都在本地进行培训
对我来说,作为一个新手,很难找到问题的根源。我很乐意得到任何建议。更新:
由于内存不足,作业失败。请尝试使用较大的计算机
除了Rhartel80的答案外,如果您可以通过cloudml与我们共享项目编号和作业id,这也将很有帮助-feedback@google.com.更新:
由于内存不足,作业失败。请尝试使用较大的计算机
除了Rhartel80的答案外,如果您可以通过cloudml与我们共享项目编号和作业id,这也将很有帮助-feedback@google.com.一种可能性是TF进程占用了太多的资源(通常是内存)并被操作系统终止。这可以解释对等机重置连接的原因
因此,可以尝试的一件事是使用一个具有更多资源的层/机器。一种可能性是TF进程正在使用大量资源(通常是内存)并被操作系统终止。这可以解释对等机重置连接的原因
因此,可以尝试的一件事是使用一个具有更多资源的层/机器。您的参数服务器可能会宕机。有一些技术可以更健壮地实现这一点,但我们需要验证您的代码。它是否可用?它与pet示例有多相似?如果您向我们提供日志转储,这可能会有所帮助。我们正在对Ariel ima进行培训被裁剪为大约1000x1000像素的切片的ges。在一些图像上有大约50个对象。我们禁用了从检查点学习。您的参数服务器可能已关闭。有一些技术可以更可靠地实现这一点,但我们需要验证您的代码。它可用吗?它与pet示例有多相似?它可能对我也有帮助如果您向我们提供了日志转储。我们正在对裁剪为约1000x1000像素切片的arieal图像进行培训。在某些图像上有大约50个对象。我们禁用了从检查点学习。