无法更新Python云数据流中的工作状态异常_Python_Google Cloud Platform_Google Cloud Dataflow_Apache Beam

无法更新Python云数据流中的工作状态异常

python google-cloud-platform google-cloud-dataflow

无法更新Python云数据流中的工作状态异常,python,google-cloud-platform,google-cloud-dataflow,apache-beam,Python,Google Cloud Platform,Google Cloud Dataflow,Apache Beam,我有一个Python云数据流工作，它在较小的子集上运行良好，但在完整的数据集上似乎没有明显的原因而失败我在数据流接口中得到的唯一错误是标准错误消息：尝试了4次工作项均未成功。每次工人最终与服务部门失去联系时分析Stackdriver日志仅显示此错误：工作循环中的异常：回溯（最后一次调用）：文件“/usr/local/lib/python2.7/dist-packages/dataflow\u-worker/batchworker.py”，第736行，运行中延迟的异常详细信息=延迟的异常详

我有一个Python云数据流工作，它在较小的子集上运行良好，但在完整的数据集上似乎没有明显的原因而失败

我在数据流接口中得到的唯一错误是标准错误消息：

尝试了4次工作项均未成功。每次工人最终与服务部门失去联系时

分析Stackdriver日志仅显示此错误：

工作循环中的异常：回溯（最后一次调用）：文件“/usr/local/lib/python2.7/dist-packages/dataflow\u-worker/batchworker.py”，第736行，运行中延迟的异常详细信息=延迟的异常详细信息）文件“/usr/local/lib/python2.7/dist-packages/dataflow\u-worker/batchworker.py”，第590行，在do_work exception_details=exception_details）文件“/usr/local/lib/python2.7/dist packages/apache_beam/utils/retry.py”的第167行中，在报告完成状态异常_details=exception_details）文件的第454行“/usr/local/lib/python2.7/dist packages/dataflow_worker/batchworker.py”“/usr/local/lib/python2.7/dist-packages/dataflow\u-worker/batchworker.py”，报告状态工作执行器=self.\u-work\u-executor）文件/usr/local/lib/python2.7/dist-packages/dataflow\u-worker/workerapiclient.py”，第364行，报告状态响应=self.\u-client.projects\u-jobs\u-workItems.ReportStatus（请求）文件”/usr/local/lib/python2.7/dist-packages/apache_-beam/internal/clients/dataflow/dataflow_v1b3_-client.py”，第210行，在ReportStatus-config，request，global_-params=global_-params）文件/usr/local/lib/python2.7/dist-packages/apitools/base/py/base_-api.py中，第723行，在运行方法返回self.ProcessHttpResponse（方法配置，http_响应，请求）文件“/usr/local/lib/python2.7/dist-packages/apitools/base/py/base\u-api.py”，第729行，在ProcessHttpResponse-self.\uuU ProcessHttpResponse（方法配置，http\u响应，请求））文件“/usr/local/lib/python2.7/dist-packages/apitools/base/py/base\u-api.py“，第599行，在_ProcessHttpResponse http_response.request_url，method_config，request）HttpError:HttpError访问https://dataflow.googleapis.com/v1b3/projects//jobs/2017-05-03_03_33_40-3860129055041750274/workItems:reportStatus?alt=json>：回应：，内容

我假设此

未能更新工作状态

错误与Cloud Runner有关？但是，由于我没有在网上找到有关此错误的任何信息，我想知道是否有其他人遇到了此错误，是否有更好的解释

我正在使用用于Python 0.5.5的Google Cloud Dataflow SDK

租约到期的一个主要原因与VM上的内存压力有关。您可以尝试在内存更高的计算机上运行作业。特别是，highmem机器类型应该可以做到这一点

有关机器类型的更多信息，请查看

下一个数据流版本（2.0.0）应该能够更好地处理这些情况。

您的管道源和接收器是什么？这两个源是地面军事系统上的avro文件，接收器是地面军事系统上的TFRecord文件。您有作业ID可供共享吗？关于您的管道正在做什么，您可以描述任何细节吗？作业ID:2017-05-07_13_10_15-6017060458892203962，管道是ML引擎的预处理作业。它从两组AVRO文件开始，组合这些文件，然后从组合的数据生成TFRecords。谢谢，我将尝试使用内存更高的计算机（以及Dataflow版本0.6.0）运行该作业！是否有任何路线图可以让我找到Dataflow 2.0.0的预期发布日期？我还没有找到它。Dataflow 2.0.0于6月中旬发布：）