Google cloud dataflow 在数据流中处理GCS文件的最佳方法?

Google cloud dataflow 在数据流中处理GCS文件的最佳方法?,google-cloud-dataflow,Google Cloud Dataflow,我有一个匹配的GCS文件名的PCollection,每个文件名都包含一个压缩的JSON blob。读取整个文件、解压缩(Gzip格式)并对其进行JSON解码的最佳方式是什么 TextIO非常接近,但每行读取数据 GCS API提供了一个示例,但它不处理解压缩,并引导我重新实现许多核心功能 是否有任何现有的API和/或示例可以让我领先?这似乎是一个非常常见的用例。这在数据流中本机不受支持。要完成从文件中读取JSON blob,可以实现FileBasedSource: 如果这就足够开始了,我们

我有一个匹配的GCS文件名的PCollection,每个文件名都包含一个压缩的JSON blob。读取整个文件、解压缩(Gzip格式)并对其进行JSON解码的最佳方式是什么

  • TextIO非常接近,但每行读取数据
  • GCS API提供了一个示例,但它不处理解压缩,并引导我重新实现许多核心功能

是否有任何现有的API和/或示例可以让我领先?这似乎是一个非常常见的用例。

这在数据流中本机不受支持。要完成从文件中读取JSON blob,可以实现FileBasedSource:


如果这就足够开始了,我们可以继续用更多的信息更新这个答案。

让我确保我理解了这个问题——理想情况下,您需要类似于:JsonIO.Read.from(myFileName).withCompressionType(JsonIO.CompressionType.GZIP)——正确吗?是的,文件是GCS对象(gs://bucket/file.json.gz).有没有解压内容的最佳方法的提示?有没有gzip编码器,或者类似的东西?你能根据TextIO对gzip的处理为解决方案建模吗?