Google bigquery 加载到Bigquery表时出现内部错误

Google bigquery 加载到Bigquery表时出现内部错误,google-bigquery,Google Bigquery,我运行此命令将11个文件加载到Bigquery表: bq load --project_id=ardent-course-601 --source_format=NEWLINE_DELIMITED_JSON dw_test.rome_defaults_20140819_test gs://sm-uk-hadoop/queries/logsToBq_transformLogs/rome_defaults/20140819/23af7218-617d-42e8-884e-f213a583094a/p

我运行此命令将11个文件加载到Bigquery表:

bq load --project_id=ardent-course-601 --source_format=NEWLINE_DELIMITED_JSON dw_test.rome_defaults_20140819_test gs://sm-uk-hadoop/queries/logsToBq_transformLogs/rome_defaults/20140819/23af7218-617d-42e8-884e-f213a583094a/part* /opt/sm-analytics/projects/logsTobqMR/jsonschema/rome_defaultsSchema.txt
我得到了这个错误:

正在等待bqjob_r46f38146351d545_00000 147EF890755_1。。。(11s)当前状态:完成 加载操作中的BigQuery错误:处理作业“ardent-course-601:bqjob_r46f38146351d545_00000 147EF890755_1”时出错:遇到的错误太多。限制为:0。 故障详情: -文件:5:意外。请再试一次

在那之后我尝试了很多次,但仍然得到同样的错误

为了调试出错的地方,我将每个文件逐个加载到Bigquery表中。例如:

/usr/local/bin/bq load --project_id=ardent-course-601 --source_format=NEWLINE_DELIMITED_JSON dw_test.rome_defaults_20140819_test gs://sm-uk-hadoop/queries/logsToBq_transformLogs/rome_defaults/20140819/23af7218-617d-42e8-884e-f213a583094a/part-m-00011.gz /opt/sm-analytics/projects/logsTobqMR/jsonschema/rome_defaultsSchema.txt
总共有11个文件,每个都运行良好

有人能帮忙吗?这是Bigquery方面的错误吗


谢谢。

读取其中一个文件时出错:
gs://…part-m-00005.gz

查看导入日志,gzip读取器似乎在解压缩文件时遇到错误

看起来该文件实际上可能没有被压缩。BigQuery对列表中第一个文件的头进行采样,以确定它是处理压缩文件还是未压缩文件,并确定压缩类型。一次导入所有文件时,它仅对第一个文件进行采样

单独运行文件时,bigquery读取文件头并确定它实际上没有被压缩(尽管后缀为“.gz”),因此将其作为普通平面文件导入

如果您运行的加载不混合压缩文件和未压缩文件,则应能成功运行


如果您认为情况并非如此,请告诉我,我将进一步深入了解。

我刚刚尝试加载所有11个零件文件。我也犯了同样的错误。作业id为bqjob_r52183c6a1cf5f984_u00000147F0328319_1。我还尝试了加载part-m-00005.gz,效果很好。工作id是bqjob_r535428744600a8ea_00000147f03335e0_1嗨,Jordan,你那边有什么发现吗?谢谢你。谢谢你提供的工作是。。他们很有帮助。看起来BigQuery被压缩文件和未压缩文件的混合搞糊涂了。如果您在所有文件上使用相同的压缩类型,它应该可以工作。(我已经更新了上面的答案)。谢谢你的帮助,乔丹。所有文件都具有相同的压缩。但是part-m-00005.gz文件恰好是0字节,因为它们是由Hadoop mapreduce生成的。我想我必须先删除那个文件,然后再上传Bigquery。哦。。。有趣。我将提交一个bug。谢谢你的报道!