Google cloud platform 如何在GCP上同时处理两个批处理文件的数据流
我想同时处理从gcp到dataflow的两个文件 我认为,如果有一个以上的文件在侧面输入是可能的 然而,在这种情况下,我认为它将被处理每一次,而不是仅仅一次 e、 g)如何同时读取和处理文件1和文件2(我是否必须将两个文件放在一个文件中,然后按照路径操作?) 如果你能给我一个好的例子或建议,我将不胜感激Google cloud platform 如何在GCP上同时处理两个批处理文件的数据流,google-cloud-platform,dataflow,google-dataflow,Google Cloud Platform,Dataflow,Google Dataflow,我想同时处理从gcp到dataflow的两个文件 我认为,如果有一个以上的文件在侧面输入是可能的 然而,在这种情况下,我认为它将被处理每一次,而不是仅仅一次 e、 g)如何同时读取和处理文件1和文件2(我是否必须将两个文件放在一个文件中,然后按照路径操作?) 如果你能给我一个好的例子或建议,我将不胜感激 谢谢。如果您从一开始就知道这两个文件,您只需拥有一个带有两个条目(fileIO)的管道即可 我不懂你的语言,但你可以这样做 PCollection1
谢谢。如果您从一开始就知道这两个文件,您只需拥有一个带有两个条目(fileIO)的管道即可 我不懂你的语言,但你可以这样做
PCollection1 PCollection2
| |
FileIO(readFile1) FileIO(readFile2)
| |
Transform file Transform file
| |
WriteIO(sink) WriteIO(sink)
您可以想象侧面输入、展平、分组,。。。这一切都取决于您的需要。在管道开始之前,您知道这两个文件的名称吗?@guillaumeblaquiere是的,我知道这两个文件的名称。