Google cloud dataflow 数据流错误-“；来源太多了。限值为5.00Ti“；_Google Cloud Dataflow

Google cloud dataflow 数据流错误-“；来源太多了。限值为5.00Ti“；

google-cloud-dataflow

Google cloud dataflow 数据流错误-“；来源太多了。限值为5.00Ti“；,google-cloud-dataflow,Google Cloud Dataflow,我们有一条管道，看起来像： BigQuery->ParDo->BigQuery 该表有~2B行，略低于1TB 运行8个多小时后，作业失败，出现以下错误： May 19, 2015, 10:09:15 PM S09: (f5a951d84007ef89): Workflow failed. Causes: (f5a951d84007e064): BigQuery job "dataflow_job_17701769799585490748" in project "gdfp-xxxx" finis

我们有一条管道，看起来像：

BigQuery->ParDo->BigQuery

该表有~2B行，略低于1TB

运行8个多小时后，作业失败，出现以下错误：

May 19, 2015, 10:09:15 PM
S09: (f5a951d84007ef89): Workflow failed. Causes: (f5a951d84007e064): BigQuery job "dataflow_job_17701769799585490748" in project "gdfp-xxxx" finished with error(s): job error: Sources are too large. Limit is 5.00Ti., error: Sources are too large. Limit is 5.00Ti.

工作id是：2015-05-18_21_04_28-9907828662358367047

这是一个很大的表，但它并没有那么大，数据流应该能够轻松地处理它。为什么它不能处理这个用例

此外，即使作业失败，它仍然在图表上显示为成功。为什么?

我认为该错误意味着您试图写入BigQuery的数据超过了单个导入作业的5TB

解决此限制的一种方法可能是通过使用多个写入转换将BigQuery写入拆分为多个作业，以便任何写入转换都不会接收超过5TB的数据

在写转换之前，可以有一个具有N个输出的DoFn。对于每个记录，随机将其分配给一个输出。然后，N个输出中的每一个都可以有自己的BigQuery.Write转换。写转换可以将所有数据附加到同一个表中，这样所有数据都将在同一个表中结束。

太糟糕了。我认为数据流可以“执行任何大小的数据处理任务”？！而这仅仅是5 TB。我真的不认为我们应该在管道中设置这样的变通方法来规避数据大小限制——即使这些限制是在BigQuery方面。数据是如何通过数据流服务加载到BigQuery中的，对于用户来说应该是完全抽象的，我们不需要处理这个问题。PolleyG，感谢您的反馈。我们正在积极寻求在测试期间减少边缘的这种摩擦。谢谢你的报道，这很有帮助。