Google cloud dataflow 谷歌云数据流从压缩数据中读取数据

Google cloud dataflow 谷歌云数据流从压缩数据中读取数据,google-cloud-dataflow,Google Cloud Dataflow,我正在尝试使用google cloud dataflow从GCS读取数据并加载到BigQuery表,但是GCS中的文件是压缩的(gzip),是否有任何类可用于从压缩/gzip文件读取数据 谢谢 数据流现在支持从压缩文本源读取数据(从开始)。具体而言,通过指定压缩类型,可以读取使用gzip和bzip2压缩的文件: TextIO.Read.from(myFileName).withCompressionType(TextIO.CompressionType.GZIP) 但是,如果文件扩展名为.gz

我正在尝试使用google cloud dataflow从GCS读取数据并加载到BigQuery表,但是GCS中的文件是压缩的(gzip),是否有任何类可用于从压缩/gzip文件读取数据


谢谢

数据流现在支持从压缩文本源读取数据(从开始)。具体而言,通过指定压缩类型,可以读取使用gzip和bzip2压缩的文件:

TextIO.Read.from(myFileName).withCompressionType(TextIO.CompressionType.GZIP)

但是,如果文件扩展名为.gz或.bz2,则无需执行任何操作:默认压缩类型为AUTO,它检查文件扩展名以确定文件的正确压缩类型。这甚至适用于globs,其中glob生成的文件可能是.gz、.bz2和未压缩文件的混合体。

太好了!谢谢你的更新。性能如何?性能对读取压缩数据有影响吗?不用担心!最大的性能影响是压缩文本文件不会被多个工作进程并行地自动拆分和读取。对许多文件的读取将并行化,但最小的工作单元是单个文件。不幸的是,我现在没有任何基准数据或数字可供分享。希望这有帮助!