Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/336.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 组合来自BigQuery的100个具有相同结构的json文件_Java_Python_Json_R_Google Bigquery - Fatal编程技术网

Java 组合来自BigQuery的100个具有相同结构的json文件

Java 组合来自BigQuery的100个具有相同结构的json文件,java,python,json,r,google-bigquery,Java,Python,Json,R,Google Bigquery,我必须将一个表(3.8GB)从BigQuery导出到GCP中,它将我的表分成100个较小的json文件,每个文件100mb。 现在我希望能够将它们放回一个json文件中。有什么有效的方法可以做到这一点吗?它可以是R、Python、Java。 或者,如果有人知道处理这些文件的更好方法,我感谢您的帮助。在Java中, 为此,我将编写一个脚本,首先将一个文件转换为json数据的对象。在任何循环中,我都会对您的100个文件执行相同的操作,并将这些对象设置到列表中。这样我就可以使用Jackson库轻松地在

我必须将一个表(3.8GB)从BigQuery导出到GCP中,它将我的表分成100个较小的json文件,每个文件100mb。 现在我希望能够将它们放回一个json文件中。有什么有效的方法可以做到这一点吗?它可以是R、Python、Java。 或者,如果有人知道处理这些文件的更好方法,我感谢您的帮助。

在Java中, 为此,我将编写一个脚本,首先将一个文件转换为json数据的对象。在任何循环中,我都会对您的100个文件执行相同的操作,并将这些对象设置到列表中。这样我就可以使用Jackson库轻松地在单个文件中编写该列表

要将Json文件数据转换为Pojo,您可以借助以下网站:

您可以使用一个命令将GCS中的多个文件合成为一个新的大型文件:

gsutil compose gs://bucket/obj1 [gs://bucket/obj2 ...] gs://bucket/composite
请注意,单个操作中可以组合的组件数量有限(目前为32个)

给定复合对象的组件总数有一个限制(当前为1024个)。这意味着您最多可以向每个对象追加1023次

对于每秒可以编写的组件数量,每个项目的速率限制(当前为200)。此速率统计附加到复合对象的组件以及复制作为其一部分的复合对象时复制的组件


另一个选择是使用云数据流。可能有点过分,但效果很好。我已经编写了一个管道,您可以使用它,因此您无需自己编写:

谢谢您,Felipe,如果您只想合并几个文件,但对我来说不太合适,这会更好,因为我必须键入每个文件。。(如果我理解正确的话)顺便说一句,我看了你的一些youtube视频,很高兴在这里见到你!试着用一个地球仪?是的,那很有效!非常感谢。这看起来很棒,但不幸的是我没有访问云数据流的权限……为什么不呢?如果您可以访问BQ,那么数据流应该是轻而易举的事。它只是谷歌云平台的一部分。