Google cloud platform 由于HttpNotFoundError,数据流作业失败

Google cloud platform 由于HttpNotFoundError,数据流作业失败,google-cloud-platform,google-bigquery,google-cloud-dataflow,Google Cloud Platform,Google Bigquery,Google Cloud Dataflow,我们的云数据流作业读取BigQuery,进行一些预处理,然后写回BigQuery。不幸的是,在几个小时后读取BigQuery时失败,并显示以下错误消息: raise exceptions.HttpError.FromResponseApitools.base.py.exceptions.HttpNotFoundError:HttpError访问:响应:,内容无此类对象:-project-/beam/temp作业名称--191119-084402.157413042.687677/11710707

我们的云数据流作业读取BigQuery,进行一些预处理,然后写回BigQuery。不幸的是,在几个小时后读取BigQuery时失败,并显示以下错误消息:

raise exceptions.HttpError.FromResponseApitools.base.py.exceptions.HttpNotFoundError:HttpError访问:响应:,内容无此类对象:-project-/beam/temp作业名称--191119-084402.157413042.687677/11710707918635668555/000000000009.avro>

在此错误之前,日志显示了许多类似于以下内容的条目:


有人知道什么可能导致数据流作业失败吗?当在一小部分数据上运行此作业时,根本没有问题。

我们仔细查看了日志,发现许多记录如下所示:

在步骤s2的状态处理毫秒中处理超过350.68秒的停顿。回溯[…]doc=spacyinput\u str

我们对此错误消息进行了更多的调查,并发现在我们用于柠檬化的管道中使用的spaCy版本1.1.8存在如下所述的内存泄漏:因此,我们已将spaCy升级到最新版本,问题消失