Google bigquery 如何避免将云存储文件加载到BigQuery时出现内部错误

Google bigquery 如何避免将云存储文件加载到BigQuery时出现内部错误,google-bigquery,google-cloud-storage,Google Bigquery,Google Cloud Storage,加载Google云存储文件时出现内部错误 $ bq load --source_format NEWLINE_DELIMITED_JSON xx_20150430 gs://xxxx/yyyy.gz 工作状态为 { "state": "DONE", "errorResult": { "reason": "internalError", "message": "Backend error. Job aborted." } } 即使我尝试加

加载Google云存储文件时出现内部错误

$ bq load --source_format NEWLINE_DELIMITED_JSON xx_20150430 gs://xxxx/yyyy.gz
工作状态为

{
    "state": "DONE",
    "errorResult": {
        "reason": "internalError",
        "message": "Backend error. Job aborted."
    }
}
即使我尝试加载同一个文件,也会失败

$ bq load --source_format NEWLINE_DELIMITED_JSON xx_20150430 gs://xxxx/yyyy.gz
Errors encountered during job execution. Backend error. Job aborted.
# Retry
$ bq load --source_format NEWLINE_DELIMITED_JSON xx_20150430 gs://xxxx/yyyy.gz
Errors encountered during job execution. Backend error. Job aborted.
我每天用相同的GCS存储桶和相同的数据格式运行48个加载作业。然后大约有4~5个工作失败。我找不到无效的数据记录。我从2015年1月开始使用相同的GCP项目和GCS桶,这个内部错误发生在4月8日之后

但我找到了一个解决办法。(下载到本地并加载后)

苏马里
  • 从4月8日开始,我每天都会犯错误
  • 大约10%的作业因内部错误而失败。(我每天使用相同的GCS铲斗进行48次装载作业)
  • 即使我重试失败的作业,每次都会出现内部错误
  • 从CloudStorage下载导致内部错误的文件,并使用bq命令加载它。然后是成功
补充资料
我的项目id是vg zucks zgok,其中一个作业id是zgok_deliver_log_production-rd_20150427-5920de503013708e38505aa2a936f48f8ea44c374eebe72346c2376b21607fce

你应该寻求支持,因为我觉得这是一个bug,你的项目受到了影响。你也可以提供项目名称,以便BQ的人可以查看。谢谢,我添加了我的项目id和BQ加载作业id。只是为了确保,你在云中以相同的项目id存储文件,对吗?通过这种方式,BQ可以读取您存储在GCS上的文件。是的,我将文件存储在同一项目下的GCS存储桶中。您在BigQuery处理此请求时遇到了错误。考虑到这次失败的具体情况,我可能需要一段时间才能找出根本原因——对此我深表歉意。作为一种可能的解决方法:您可以尝试将单个.gz文件拆分为两个或三个.gz文件,看看是否有效吗?(这也将增加加载作业的吞吐量。)
$ bq load --source_format NEWLINE_DELIMITED_JSON xx_20150430 gs://xxxx/yyyy.gz
Errors encountered during job execution. Backend error. Job aborted.
$ gsutil cp gs://xxxx/yyyy.gz ./yyyy.gz
$ bq load --source_format NEWLINE_DELIMITED_JSON xx_20150430 ./yyyy.gz
SUCCESS