Google cloud dataflow 限制数据流输入文件模式glob的结果数？_Google Cloud Dataflow

Google cloud dataflow 限制数据流输入文件模式glob的结果数？

google-cloud-dataflow

Google cloud dataflow 限制数据流输入文件模式glob的结果数？,google-cloud-dataflow,Google Cloud Dataflow,更新：我们已经看到了以下400个类错误： com.google.api.client.googleapis.json.GoogleJsonResponseException:400错误请求{“代码”：400，“错误”：[{“域”：“全局”，“消息”：“请求负载超过允许的限制：50000”，“原因”：“请求负载超过允许的限制：50000”，“消息”：“请求负载超过允许的限制：50000”，“状态”：“无效参数”}位于com.google.api.client.googleapis.json.Go

更新：

我们已经看到了以下400个类错误：

com.google.api.client.googleapis.json.GoogleJsonResponseException:400错误请求{“代码”：400，“错误”：[{“域”：“全局”，“消息”：“请求负载超过允许的限制：50000”，“原因”：“请求负载超过允许的限制：50000”，“消息”：“请求负载超过允许的限制：50000”，“状态”：“无效参数”}位于com.google.api.client.googleapis.json.GoogleJsonResponseException.from（GoogleJsonResponseException.java:145）的

在解析为：

总计：60个对象，8405391字节（8.02 MiB）

而且在过去几天中，输入球的变异性不断增加，达到了极限

最近我们观察到，当衍生到大量文件的文件模式规范作为数据流作业的输入传递时，作业失败。在这些场景中生成的消息示例如下：

Apr 29, 2015, 9:22:51 AM
(5dd3e79031bdcc45): com.google.api.client.googleapis.json.GoogleJsonResponseException: 400 Bad Request { "code" : 400, "errors" : [ { "domain" : "global", "message" : "Request payload exceeds the allowable limit: 50000.", "reason" : "badRequest" } ], "message" : "Request payload exceeds the allowable limit: 50000.", "status" : "INVALID_ARGUMENT" } at com.google.api.client.googleapis.json.GoogleJsonResponseException.from(GoogleJsonResponseException.java:145) at com.google.api.client.googleapis.services.json.AbstractGoogleJsonClientRequest.newExceptionOnError(AbstractGoogleJsonClientRequest.java:113) at com.google.api.client.googleapis.services.json.AbstractGoogleJsonClientRequest.newExceptionOnError(AbstractGoogleJsonClientRequest.java:40) at com.google.api.client.googleapis.services.AbstractGoogleClientRequest$1.interceptResponse(AbstractGoogleClientRequest.java:321) at com.google.api.client.http.HttpRequest.execute(HttpRequest.java:1049) at com.google.api.client.googleapis.services.AbstractGoogleClientRequest.executeUnparsed(AbstractGoogleClientRequest.java:419) at com.google.api.client.googleapis.services.AbstractGoogleClientRequest.executeUnparsed(AbstractGoogleClientRequest.java:352) at com.google.api.client.googleapis.services.AbstractGoogleClientRequest.execute(AbstractGoogleClientRequest.java:469) at com.google.cloud.dataflow.sdk.runners.worker.DataflowWorkerHarness$DataflowWorkUnitClient.reportWorkItemStatus(DataflowWorkerHarness.java:273) at com.google.cloud.dataflow.sdk.runners.worker.DataflowWorker.reportStatus(DataflowWorker.java:209) at com.google.cloud.dataflow.sdk.runners.worker.DataflowWorker.doWork(DataflowWorker.java:157) at com.google.cloud.dataflow.sdk.runners.worker.DataflowWorker.getAndPerformWork(DataflowWorker.java:95) at com.google.cloud.dataflow.sdk.runners.worker.DataflowWorkerHarness$WorkerThread.call(DataflowWorkerHarness.java:139) at com.google.cloud.dataflow.sdk.runners.worker.DataflowWorkerHarness$WorkerThread.call(DataflowWorkerHarness.java:124) at java.util.concurrent.FutureTask.run(FutureTask.java:266) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) at java.lang.Thread.run(Thread.java:745)
 9:22:51 AM
 Failed task is going to be retried.

对此，我们在作业并行化方面取得了一些成功，但我们想知道是否有一个硬限制或配额正在遭遇。在达到最大重试次数后，重试的任务不可避免地会失败，从而导致作业失败

谢谢

Sal

数据流服务已更新，以处理此类较大的请求，并且不应再产生此问题。

一些其他显著错误消息：

未能拆分源。原因：（9a576143e1c9f188）：任务已尝试了4次，未成功，这是允许的最大值。

请求负载超出了允许的限制：50000

这是服务中的一个错误，应尽快推出修复程序。我会通知你的。同时，您的文件模式扩展到多少个文件？2000到25000之间，我相信我们遇到了一些问题。谢谢你的快速回复！谢谢当再次尝试运行时，我会通知您。看起来限制更多的是由通配符生成的所有文件的总字节数，而不是匹配时生成的单个文件的总字节数。你能证实吗？