Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/google-cloud-platform/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Google cloud platform 长时间运行的数据流作业失败,用户代码中没有错误_Google Cloud Platform_Google Cloud Dataflow_Apache Beam - Fatal编程技术网

Google cloud platform 长时间运行的数据流作业失败,用户代码中没有错误

Google cloud platform 长时间运行的数据流作业失败,用户代码中没有错误,google-cloud-platform,google-cloud-dataflow,apache-beam,Google Cloud Platform,Google Cloud Dataflow,Apache Beam,运行17小时后,我的数据流作业失败,并显示以下消息: The job failed because a work item has failed 4 times. Look in previous log entries for the cause of each one of the 4 failures. 4起故障包括3名工人与服务失去联系,1名工人报告死亡: ****-q15f Root cause: The worker lost contact with the service. *

运行17小时后,我的数据流作业失败,并显示以下消息:

The job failed because a work item has failed 4 times. Look in previous log entries for the cause of each one of the 4 failures.
4起故障包括3名工人与服务失去联系,1名工人报告死亡:

****-q15f Root cause: The worker lost contact with the service.
****-pq33 Root cause: The worker lost contact with the service.
****-fzdp Root cause: The worker ****-fzdp has been reported dead. Aborting lease 4624388267005979538.
****-nd4r Root cause: The worker lost contact with the service.
我在Stackdriver中的作业的工作日志中没有看到任何错误。这只是运气不好吗?我不知道工作项需要重试的频率有多高,所以我不知道单个工作项在24小时工作过程中失败4次的概率有多大。但是对于这个长时间运行的作业,这种类型的作业失败经常发生,因此似乎我们需要某种方法来降低工作项的失败率,或者增加允许的重试次数。两者都有可能吗?这似乎与我的管道代码无关,但如果相关的话,我使用的是Python SDK,
apache beam==2.15.0
。如果您能给我一些关于如何调试的建议,我将不胜感激


更新:控制台中的“堆栈跟踪”部分完全是空的。

我也遇到了同样的问题,通过扩展我的工作人员资源解决了这个问题。具体来说,我在管道配置中设置了
--machine_type=n1-highcpu-96
。有关机器类型选项的更多详细列表,请参阅


编辑:根据管道流程的要求,将其设置为
highcpu
highmem
,这与我遇到的问题相同。工人的stackdriver上似乎也没有任何错误。很抱歉您遇到这种情况。你应该为这类问题提交一份支持票,因为没有足够的信息来了解到底发生了什么。可能发生的情况是,工作人员的内存不足(ooming),并且没有正确地向服务发送更新-您的操作占用内存吗?谢谢,我将尝试一下!我知道这份工作需要大量的记忆。