Google bigquery 加载到Bigquery表时出现内部错误
我运行此命令将11个文件加载到Bigquery表:Google bigquery 加载到Bigquery表时出现内部错误,google-bigquery,Google Bigquery,我运行此命令将11个文件加载到Bigquery表: bq load --project_id=ardent-course-601 --source_format=NEWLINE_DELIMITED_JSON dw_test.rome_defaults_20140819_test gs://sm-uk-hadoop/queries/logsToBq_transformLogs/rome_defaults/20140819/23af7218-617d-42e8-884e-f213a583094a/p
bq load --project_id=ardent-course-601 --source_format=NEWLINE_DELIMITED_JSON dw_test.rome_defaults_20140819_test gs://sm-uk-hadoop/queries/logsToBq_transformLogs/rome_defaults/20140819/23af7218-617d-42e8-884e-f213a583094a/part* /opt/sm-analytics/projects/logsTobqMR/jsonschema/rome_defaultsSchema.txt
我得到了这个错误:
正在等待bqjob_r46f38146351d545_00000 147EF890755_1。。。(11s)当前状态:完成
加载操作中的BigQuery错误:处理作业“ardent-course-601:bqjob_r46f38146351d545_00000 147EF890755_1”时出错:遇到的错误太多。限制为:0。
故障详情:
-文件:5:意外。请再试一次
在那之后我尝试了很多次,但仍然得到同样的错误
为了调试出错的地方,我将每个文件逐个加载到Bigquery表中。例如:
/usr/local/bin/bq load --project_id=ardent-course-601 --source_format=NEWLINE_DELIMITED_JSON dw_test.rome_defaults_20140819_test gs://sm-uk-hadoop/queries/logsToBq_transformLogs/rome_defaults/20140819/23af7218-617d-42e8-884e-f213a583094a/part-m-00011.gz /opt/sm-analytics/projects/logsTobqMR/jsonschema/rome_defaultsSchema.txt
总共有11个文件,每个都运行良好
有人能帮忙吗?这是Bigquery方面的错误吗
谢谢。读取其中一个文件时出错:
gs://…part-m-00005.gz
查看导入日志,gzip读取器似乎在解压缩文件时遇到错误
看起来该文件实际上可能没有被压缩。BigQuery对列表中第一个文件的头进行采样,以确定它是处理压缩文件还是未压缩文件,并确定压缩类型。一次导入所有文件时,它仅对第一个文件进行采样
单独运行文件时,bigquery读取文件头并确定它实际上没有被压缩(尽管后缀为“.gz”),因此将其作为普通平面文件导入
如果您运行的加载不混合压缩文件和未压缩文件,则应能成功运行
如果您认为情况并非如此,请告诉我,我将进一步深入了解。我刚刚尝试加载所有11个零件文件。我也犯了同样的错误。作业id为bqjob_r52183c6a1cf5f984_u00000147F0328319_1。我还尝试了加载part-m-00005.gz,效果很好。工作id是bqjob_r535428744600a8ea_00000147f03335e0_1嗨,Jordan,你那边有什么发现吗?谢谢你。谢谢你提供的工作是。。他们很有帮助。看起来BigQuery被压缩文件和未压缩文件的混合搞糊涂了。如果您在所有文件上使用相同的压缩类型,它应该可以工作。(我已经更新了上面的答案)。谢谢你的帮助,乔丹。所有文件都具有相同的压缩。但是part-m-00005.gz文件恰好是0字节,因为它们是由Hadoop mapreduce生成的。我想我必须先删除那个文件,然后再上传Bigquery。哦。。。有趣。我将提交一个bug。谢谢你的报道!