Google bigquery 使用BigQuery多个通配符URI导出数据

Google bigquery 使用BigQuery多个通配符URI导出数据,google-bigquery,Google Bigquery,正在尝试将BigQuery中的表数据导出到Google云存储中创建的存储桶 当我使用单个通配符URI将BigQuery中的表导出到GCS时,它会自动将表拆分为多个分片文件,每个文件大约368 MB,并放入GCS中指定的存储桶中 命令如下: bq --nosync extract --destination_format=CSV '<bq table>' 'gs://<gcs_bucket>/*.csv' 即使使用多个URI,每个文件的文件大小和文件数仍保持不变,约为36

正在尝试将BigQuery中的表数据导出到Google云存储中创建的存储桶

当我使用单个通配符URI将BigQuery中的表导出到GCS时,它会自动将表拆分为多个分片文件,每个文件大约368 MB,并放入GCS中指定的存储桶中

命令如下:

bq --nosync extract --destination_format=CSV '<bq table>' 'gs://<gcs_bucket>/*.csv'
即使使用多个URI,每个文件的文件大小和文件数仍保持不变,约为368 MB:

bq --nosync extract --destination_format=CSV '<bq table>' 'gs://<gcs_bucket>/1-*.csv','gs://<gcs_bucket>/2-*.csv','gs://<gcs_bucket>/3-*.csv','gs://<gcs_bucket>/4-*.csv','gs://<gcs_bucket>/5-*.csv'

我正在试图找出如何使用多个URI选项来减小文件大小。

我相信BigQuery不会对生成的文件大小提供任何保证,因此您观察到的是正确的:指定或不指定多个通配符URI时,文件大小可能不会不同

多个通配符URI的常见用例是,它告诉BigQuery将输出文件均匀地分布到N个模式中,这样您就可以将每个输出URI模式提供给下游工作程序