Google cloud dataflow 在GCP数据流上运行的ApacheBeam如何处理大量大型SQL表?

Google cloud dataflow 在GCP数据流上运行的ApacheBeam如何处理大量大型SQL表?,google-cloud-dataflow,apache-beam,Google Cloud Dataflow,Apache Beam,我有一个大约1TB数据的SQL表,我想将这个表ETL到GCS。我不明白的是Apache beam是如何读取表的,它是以块的形式存在的,如果是,块的大小是多少,我如何配置它?此外,工作是否从失败的地方开始 apachebeam提供了transformfactory类,用于从JDBC可访问的数据库中读取数据。JdbcIO使用普通的JDBC构造来建立连接和读取数据 JdbcIO没有提供任何机制来分块、切分或分割它的工作负载。Read转换是使用SQL查询创建的,该查询在单个步骤中执行 如果需要对工作负载

我有一个大约1TB数据的SQL表,我想将这个表ETL到GCS。我不明白的是Apache beam是如何读取表的,它是以块的形式存在的,如果是,块的大小是多少,我如何配置它?此外,工作是否从失败的地方开始

apachebeam提供了transformfactory类,用于从JDBC可访问的数据库中读取数据。JdbcIO使用普通的JDBC构造来建立连接和读取数据

JdbcIO没有提供任何机制来分块、切分或分割它的工作负载。Read转换是使用SQL查询创建的,该查询在单个步骤中执行

如果需要对工作负载进行分区以获得某种程度的并行化,则需要将其添加到apachebeam管道中。这可以通过以下步骤来完成:首先计算分区边界,然后将这些边界作为输入传递给JdbcIO.Read转换的SQL查询

Apache Beam提供了transform factory类,用于从JDBC可访问的数据库读取数据。JdbcIO使用普通的JDBC构造来建立连接和读取数据

JdbcIO没有提供任何机制来分块、切分或分割它的工作负载。Read转换是使用SQL查询创建的,该查询在单个步骤中执行

如果需要对工作负载进行分区以获得某种程度的并行化,则需要将其添加到apachebeam管道中。这可以通过以下步骤来完成:首先计算分区边界,然后将这些边界作为输入传递给JdbcIO.Read转换的SQL查询

是这种分区方法的一个示例