Java 组合来自BigQuery的100个具有相同结构的json文件
我必须将一个表(3.8GB)从BigQuery导出到GCP中,它将我的表分成100个较小的json文件,每个文件100mb。 现在我希望能够将它们放回一个json文件中。有什么有效的方法可以做到这一点吗?它可以是R、Python、Java。 或者,如果有人知道处理这些文件的更好方法,我感谢您的帮助。在Java中, 为此,我将编写一个脚本,首先将一个文件转换为json数据的对象。在任何循环中,我都会对您的100个文件执行相同的操作,并将这些对象设置到列表中。这样我就可以使用Jackson库轻松地在单个文件中编写该列表 要将Json文件数据转换为Pojo,您可以借助以下网站:Java 组合来自BigQuery的100个具有相同结构的json文件,java,python,json,r,google-bigquery,Java,Python,Json,R,Google Bigquery,我必须将一个表(3.8GB)从BigQuery导出到GCP中,它将我的表分成100个较小的json文件,每个文件100mb。 现在我希望能够将它们放回一个json文件中。有什么有效的方法可以做到这一点吗?它可以是R、Python、Java。 或者,如果有人知道处理这些文件的更好方法,我感谢您的帮助。在Java中, 为此,我将编写一个脚本,首先将一个文件转换为json数据的对象。在任何循环中,我都会对您的100个文件执行相同的操作,并将这些对象设置到列表中。这样我就可以使用Jackson库轻松地在
您可以使用一个命令将GCS中的多个文件合成为一个新的大型文件:
gsutil compose gs://bucket/obj1 [gs://bucket/obj2 ...] gs://bucket/composite
另一个选择是使用云数据流。可能有点过分,但效果很好。我已经编写了一个管道,您可以使用它,因此您无需自己编写:谢谢您,Felipe,如果您只想合并几个文件,但对我来说不太合适,这会更好,因为我必须键入每个文件。。(如果我理解正确的话)顺便说一句,我看了你的一些youtube视频,很高兴在这里见到你!试着用一个地球仪?是的,那很有效!非常感谢。这看起来很棒,但不幸的是我没有访问云数据流的权限……为什么不呢?如果您可以访问BQ,那么数据流应该是轻而易举的事。它只是谷歌云平台的一部分。