Google cloud dataflow 在GCP数据流上运行的ApacheBeam如何处理大量大型SQL表？_Google Cloud Dataflow_Apache Beam

Google cloud dataflow 在GCP数据流上运行的ApacheBeam如何处理大量大型SQL表？

google-cloud-dataflow

Google cloud dataflow 在GCP数据流上运行的ApacheBeam如何处理大量大型SQL表？,google-cloud-dataflow,apache-beam,Google Cloud Dataflow,Apache Beam,我有一个大约1TB数据的SQL表，我想将这个表ETL到GCS。我不明白的是Apache beam是如何读取表的，它是以块的形式存在的，如果是，块的大小是多少，我如何配置它？此外，工作是否从失败的地方开始 apachebeam提供了transformfactory类，用于从JDBC可访问的数据库中读取数据。JdbcIO使用普通的JDBC构造来建立连接和读取数据 JdbcIO没有提供任何机制来分块、切分或分割它的工作负载。Read转换是使用SQL查询创建的，该查询在单个步骤中执行如果需要对工作负载

我有一个大约1TB数据的SQL表，我想将这个表ETL到GCS。我不明白的是Apache beam是如何读取表的，它是以块的形式存在的，如果是，块的大小是多少，我如何配置它？此外，工作是否从失败的地方开始

apachebeam提供了transformfactory类，用于从JDBC可访问的数据库中读取数据。JdbcIO使用普通的JDBC构造来建立连接和读取数据

JdbcIO没有提供任何机制来分块、切分或分割它的工作负载。Read转换是使用SQL查询创建的，该查询在单个步骤中执行

如果需要对工作负载进行分区以获得某种程度的并行化，则需要将其添加到apachebeam管道中。这可以通过以下步骤来完成：首先计算分区边界，然后将这些边界作为输入传递给JdbcIO.Read转换的SQL查询

Apache Beam提供了transform factory类，用于从JDBC可访问的数据库读取数据。JdbcIO使用普通的JDBC构造来建立连接和读取数据

JdbcIO没有提供任何机制来分块、切分或分割它的工作负载。Read转换是使用SQL查询创建的，该查询在单个步骤中执行

是这种分区方法的一个示例