使用ApacheBeam和Python左连接
我有两个BigQuery表,我想执行左连接。如果右工作台比其工作台小;但当右表大小等于左表大小时,则会占用太多的处理能力。两个表都包含大约700万条记录使用ApacheBeam和Python左连接,python,google-cloud-dataflow,apache-beam,Python,Google Cloud Dataflow,Apache Beam,我有两个BigQuery表,我想执行左连接。如果右工作台比其工作台小;但当右表大小等于左表大小时,则会占用太多的处理能力。两个表都包含大约700万条记录 请建议我这样做的方法 *您可以让它触发一个查询,从bigquery中执行所有这些操作,并将结果传递给dataflow。这是一个大项目的一部分,所以我不能手动执行,也不能单独执行一些查询。我的意思是,您可以使用一个大查询作为数据流管道的源/输入。通常,这种方法比单独读取整个表中的数据流扩展得更远。
请建议我这样做的方法 *您可以让它触发一个查询,从bigquery中执行所有这些操作,并将结果传递给dataflow。这是一个大项目的一部分,所以我不能手动执行,也不能单独执行一些查询。我的意思是,您可以使用一个大查询作为数据流管道的源/输入。通常,这种方法比单独读取整个表中的数据流扩展得更远。