Google bigquery 来自云存储的bq负载缓慢

Google bigquery 来自云存储的bq负载缓慢,google-bigquery,google-cloud-storage,Google Bigquery,Google Cloud Storage,我正在尝试将几个文件从云存储上传到BigQuery。文件大约压缩了3.8GB(未压缩16GB),但在我出现坏字符错误之前,作业花费了12402秒 Job cloudsql-sigma:job_9e4f13da43b649fe86b6410887c8d2c7 Job Type State Start Time Duration Bytes Processed load FAILURE 27 Aug 12:27:21 3:24:17

我正在尝试将几个文件从云存储上传到BigQuery。文件大约压缩了3.8GB(未压缩16GB),但在我出现坏字符错误之前,作业花费了12402秒

Job cloudsql-sigma:job_9e4f13da43b649fe86b6410887c8d2c7

  Job Type    State      Start Time      Duration   Bytes Processed   
  load       FAILURE   27 Aug 12:27:21   3:24:17                     

Errors encountered during job execution. Too many errors encountered. Limit is: 0.
Failure details:
  - Bad character (ASCII 0) encountered. Rest of file not processed.

为什么要花这么长时间

目前存在一个公开的错误,错误地认为某些压缩文件格式不正确。-我们在文件末尾得到一个ascii 0,结果失败。我们重试两次,所以真正发生的是我们处理文件3次,每次大约需要一个小时。68分钟内的16gb大约是4MB/秒——这比我预期的要慢,但并不可怕

如果您希望导入更快,我建议将其分解为更小的部分,并在作业中单独列出这些文件。它们将被并行处理


同时,我将尝试在本周发布的BigQuery中修复文件末尾的ascii 0。

对于4GB文件,修复时间为3小时24分钟。这大约是2mb/s,相当于消费级DSL的速度。你的网速太慢了吗?真的不是。用speedtest.netWell上传的速度刚刚达到234Mbps,除了像这样明显的实际问题外,我想说我无能为力。仅供参考,“坏Ascii字符”已经在内部修复。它可能会在下周发布。仅当未压缩文件>4GB时才会发生这种情况。