Google cloud dataflow 如何使用ApacheBeam apk解压/解压google云数据流上的zip存档

Google cloud dataflow 如何使用ApacheBeam apk解压/解压google云数据流上的zip存档,google-cloud-dataflow,apache-beam,zipfile,Google Cloud Dataflow,Apache Beam,Zipfile,我有一个包含更多嵌套zip存档的zip存档,我需要使用ApacheBeam apk在google cloud数据流上解包父zip存档,然后将结果文件存储在google cloud存储中 这适用于大小可能从1GB到100GB不等的可变大小输入文件。谷歌的数据流看起来是一个很有希望的人选 expected input: -MyFiles.zip -MyNestedFiles-folder(1) -MyMoreNestedFiles.zip -Other_no

我有一个包含更多嵌套zip存档的zip存档,我需要使用ApacheBeam apk在google cloud数据流上解包父zip存档,然后将结果文件存储在google cloud存储中

这适用于大小可能从1GB到100GB不等的可变大小输入文件。谷歌的数据流看起来是一个很有希望的人选

expected input:
-MyFiles.zip
   -MyNestedFiles-folder(1)
        -MyMoreNestedFiles.zip  
        -Other_non_zips
   -MyNestedFiles-folder(n)
        -MyMoreNestedFiles.zip  
        -Other_non_zips
   -Other_non_zips


expected output:
   -MyNestedFiles-folder(1)
        -MyMoreNestedFiles.zip  
        -Other_non_zips
   -MyNestedFiles-folder(n)
        -MyMoreNestedFiles.zip  
        -Other_non_zips
   -Other_non_zips

您是将输入zip文件保存在本地还是其他地方?我将输入zip文件保存在云存储中。输入和输出存储桶是不同的,但是这应该不是问题。您是将输入zip文件保存在本地还是其他地方?我将输入zip文件保存在云存储中。输入和输出桶是不同的,但是这不应该是一个问题。