Google bigquery bigquery在巨大数据负载期间的波束处理失败

Google bigquery bigquery在巨大数据负载期间的波束处理失败,google-bigquery,google-cloud-dataflow,Google Bigquery,Google Cloud Dataflow,我最近开始使用Apache beam。我肯定我错过了一些东西。我需要从一个非常庞大的数据库加载到bigquery。这些桌子很大。我已经编写了示例梁作业,以从简单表中加载最少的行 如何使用JDBCIO从表中加载n行?我是否可以像在传统数据迁移作业中那样批量加载这些数据 我可以从数据库批量读取数据并批量写入bigquery吗 我还看到,将数据加载到bigquery的建议方法是将文件添加到数据存储桶中。但是,在自动化环境中,需要将其作为数据流作业写入,以便从db加载并写入bigquery。我应该用什么

我最近开始使用Apache beam。我肯定我错过了一些东西。我需要从一个非常庞大的数据库加载到bigquery。这些桌子很大。我已经编写了示例梁作业,以从简单表中加载最少的行

  • 如何使用JDBCIO从表中加载n行?我是否可以像在传统数据迁移作业中那样批量加载这些数据
  • 我可以从数据库批量读取数据并批量写入bigquery吗

  • 我还看到,将数据加载到bigquery的建议方法是将文件添加到数据存储桶中。但是,在自动化环境中,需要将其作为数据流作业写入,以便从db加载并写入bigquery。我应该用什么设计方法来使用ApacheBeam解决这个问题


  • 请帮忙

    看起来[1]BigQueryIO将写入来自有界PCollection的成批数据(否则将使用流式插入)。它似乎还绑定了每个文件和批的大小,因此我认为您不需要进行任何手动批处理

    我只是通过JDBCIO读取您的数据库,如果需要,对其进行转换,然后将其写入BigQueryIO

    [1]