Streaming 在2 TB数据的BigQuery中进行数据分区的有效方法是什么？_Streaming_Google Bigquery

Streaming 在2 TB数据的BigQuery中进行数据分区的有效方法是什么？

streaming google-bigquery

Streaming 在2 TB数据的BigQuery中进行数据分区的有效方法是什么？,streaming,google-bigquery,Streaming,Google Bigquery,目前，我已经将数据以分片形式导出到谷歌云，在服务器中下载并流式传输到分区表，但问题是这需要很长时间。它以1GB的速度传输40分钟。请帮我快点。我的机器是12内核和20 Gb RAM CPU。您可以使用生成的API调用或其他方法直接将数据从Google云存储加载到您的分区中要更新特定分区中的数据，请在将数据加载到分区表中时，在分区表的名称后附加分区装饰符。分区装饰器表示特定日期，其形式如下： $YYYYMMDD 例如，以下命令使用从云存储桶加载的内容替换名为mydataset.table1的分

目前，我已经将数据以分片形式导出到谷歌云，在服务器中下载并流式传输到分区表，但问题是这需要很长时间。它以1GB的速度传输40分钟。请帮我快点。我的机器是12内核和20 Gb RAM CPU。

您可以使用生成的API调用或其他方法直接将数据从Google云存储加载到您的分区中

要更新特定分区中的数据，请在将数据加载到分区表中时，在分区表的名称后附加分区装饰符。分区装饰器表示特定日期，其形式如下：

$YYYYMMDD

例如，以下命令使用从云存储桶加载的内容替换名为mydataset.table1的分区表中2016年1月1日（20160101）的整个分区中的数据：

bq load  --replace --source_format=NEWLINE_DELIMITED_JSON 'mydataset.table1$20160101' gs://[MY_BUCKET]/replacement_json.json

注意：由于分区表中的分区共享表架构，因此替换分区中的数据不会替换表的架构。相反，新数据的模式必须与表模式兼容。要使用加载作业更新表的架构，请使用configuration.load.schemaUpdateOptions

您可以使用生成的API调用或其他方法直接将数据从Google云存储加载到您的分区中

要更新特定分区中的数据，请在将数据加载到分区表中时，在分区表的名称后附加分区装饰符。分区装饰器表示特定日期，其形式如下：

$YYYYMMDD

例如，以下命令使用从云存储桶加载的内容替换名为mydataset.table1的分区表中2016年1月1日（20160101）的整个分区中的数据：

bq load  --replace --source_format=NEWLINE_DELIMITED_JSON 'mydataset.table1$20160101' gs://[MY_BUCKET]/replacement_json.json

阅读更多内容

为什么不从云存储加载数据，而不是使用流式处理？我想将bigquery中的所有数据重新分区，以便我可以用于查询。@ElliottBrossard是否可以将分区后的数据导出到google云存储？因为现在所有的数据都不是有序导出的。把数据放在不同的目录中，然后看看奔腾10的答案。我有6个月的数据要导出。因此，如果我开始在不同的目录中导出，则需要更长的时间，因为每个日期我都必须运行不同的查询来创建一个新表，然后需要手动导出。如果我错了，请纠正我。为什么不从云存储加载数据而不是使用流式处理？我想将bigquery中的所有数据重新分区，以便我可以使用它进行查询。@ElliottBrossard是否可以将数据分区导出到google云存储？因为现在所有的数据都不是有序导出的。把数据放在不同的目录中，然后看看奔腾10的答案。我有6个月的数据要导出。因此，如果我开始在不同的目录中导出，则需要更长的时间，因为每个日期我都必须运行不同的查询来创建一个新表，然后需要手动导出。如果我错了，请纠正我。