Python 谷歌云数据流&x2B;批处理

Python 谷歌云数据流&x2B;批处理,python,google-bigquery,google-cloud-dataflow,Python,Google Bigquery,Google Cloud Dataflow,我正在构建一个基础设施,在这里我想分别接收热数据和冷数据。对于热数据,我将数据写入Cloud Paner,对于冷数据,我希望将数据写入更持久的东西,比如BigQuery 我正在使用流式服务中的数据,但我想利用BigQuery的缓存机制——如果我一直将冷数据流式传输到BigQuery中,这是不可能的。我的问题是,是否可以将流管道分叉为批处理管道,并将流管道连接到扳手,将批处理管道连接到BigQuery 我可以设想将冷数据写入云存储,并使用cron作业将数据读入BigQuery,但有没有更好的/本机

我正在构建一个基础设施,在这里我想分别接收热数据和冷数据。对于热数据,我将数据写入Cloud Paner,对于冷数据,我希望将数据写入更持久的东西,比如BigQuery

我正在使用流式服务中的数据,但我想利用BigQuery的缓存机制——如果我一直将冷数据流式传输到BigQuery中,这是不可能的。我的问题是,是否可以将流管道分叉为批处理管道,并将流管道连接到扳手,将批处理管道连接到BigQuery


我可以设想将冷数据写入云存储,并使用cron作业将数据读入BigQuery,但有没有更好的/本机方式来实现流+批处理拆分?

尽管数据流确实有批处理和流处理执行模式,您可以使用流模式执行批处理模式下的任何操作(成本和可扩展性可能有所不同)。因为您的输入是一个流,也就是一个无限的数据源,所以您的管道将自动以流模式运行


听起来向BigQuery写入数据的方法可能是您想要的,您可以使用它来管理数据写入的频率。

仅此而已。。如果有人对这个问题投了反对票,我想知道为什么你会认为这个问题值得投反对票。谢谢你的有见地的API参考。这正是我想要的,但是在python库中。我很好奇数据流如何根据使用withTriggeringFrequency向我收费?如果项目及时进入生产线(例如每小时触发一次),成本会更高吗?您可以使用的定价详细信息根据不同的方法估算成本。