Streaming 在2 TB数据的BigQuery中进行数据分区的有效方法是什么?

Streaming 在2 TB数据的BigQuery中进行数据分区的有效方法是什么?,streaming,google-bigquery,Streaming,Google Bigquery,目前,我已经将数据以分片形式导出到谷歌云,在服务器中下载并流式传输到分区表,但问题是这需要很长时间。它以1GB的速度传输40分钟。请帮我快点。我的机器是12内核和20 Gb RAM CPU。您可以使用生成的API调用或其他方法直接将数据从Google云存储加载到您的分区中 要更新特定分区中的数据,请在将数据加载到分区表中时,在分区表的名称后附加分区装饰符。分区装饰器表示特定日期,其形式如下: $YYYYMMDD 例如,以下命令使用从云存储桶加载的内容替换名为mydataset.table1的分

目前,我已经将数据以分片形式导出到谷歌云,在服务器中下载并流式传输到分区表,但问题是这需要很长时间。它以1GB的速度传输40分钟。请帮我快点。我的机器是12内核和20 Gb RAM CPU。

您可以使用生成的API调用或其他方法直接将数据从Google云存储加载到您的分区中

要更新特定分区中的数据,请在将数据加载到分区表中时,在分区表的名称后附加分区装饰符。分区装饰器表示特定日期,其形式如下:

$YYYYMMDD
例如,以下命令使用从云存储桶加载的内容替换名为mydataset.table1的分区表中2016年1月1日(20160101)的整个分区中的数据:

bq load  --replace --source_format=NEWLINE_DELIMITED_JSON 'mydataset.table1$20160101' gs://[MY_BUCKET]/replacement_json.json
注意:由于分区表中的分区共享表架构,因此替换分区中的数据不会替换表的架构。相反,新数据的模式必须与表模式兼容。要使用加载作业更新表的架构,请使用configuration.load.schemaUpdateOptions


阅读更多

您可以使用生成的API调用或其他方法直接将数据从Google云存储加载到您的分区中

要更新特定分区中的数据,请在将数据加载到分区表中时,在分区表的名称后附加分区装饰符。分区装饰器表示特定日期,其形式如下:

$YYYYMMDD
例如,以下命令使用从云存储桶加载的内容替换名为mydataset.table1的分区表中2016年1月1日(20160101)的整个分区中的数据:

bq load  --replace --source_format=NEWLINE_DELIMITED_JSON 'mydataset.table1$20160101' gs://[MY_BUCKET]/replacement_json.json
注意:由于分区表中的分区共享表架构,因此替换分区中的数据不会替换表的架构。相反,新数据的模式必须与表模式兼容。要使用加载作业更新表的架构,请使用configuration.load.schemaUpdateOptions


阅读更多内容

为什么不从云存储加载数据,而不是使用流式处理?我想将bigquery中的所有数据重新分区,以便我可以用于查询。@ElliottBrossard是否可以将分区后的数据导出到google云存储?因为现在所有的数据都不是有序导出的。把数据放在不同的目录中,然后看看奔腾10的答案。我有6个月的数据要导出。因此,如果我开始在不同的目录中导出,则需要更长的时间,因为每个日期我都必须运行不同的查询来创建一个新表,然后需要手动导出。如果我错了,请纠正我。为什么不从云存储加载数据而不是使用流式处理?我想将bigquery中的所有数据重新分区,以便我可以使用它进行查询。@ElliottBrossard是否可以将数据分区导出到google云存储?因为现在所有的数据都不是有序导出的。把数据放在不同的目录中,然后看看奔腾10的答案。我有6个月的数据要导出。因此,如果我开始在不同的目录中导出,则需要更长的时间,因为每个日期我都必须运行不同的查询来创建一个新表,然后需要手动导出。如果我错了,请纠正我。