Google bigquery 加载Bigquery表时出现内部错误

Google bigquery 加载Bigquery表时出现内部错误,google-bigquery,Google Bigquery,当使用bq load——source_format=NEWLINE_DELIMITED_json加载一个包含1000万条记录的1.3Gb json文件时,我遇到了这种类型的错误 如果我只将前100万条记录放在一个单独的文件中,它可以正常加载,但当我尝试运行完整的文件时,我会得到以下结果: 当前状态:待定 正在等待bqjob_r6ac3e4加载操作中的BigQuery错误:错误 加工作业 “我的项目产品:bqjob_r6ac3e4da72b48e4f_u000001528037b394_1”:太多

当使用bq load——source_format=NEWLINE_DELIMITED_json加载一个包含1000万条记录的1.3Gb json文件时,我遇到了这种类型的错误

如果我只将前100万条记录放在一个单独的文件中,它可以正常加载,但当我尝试运行完整的文件时,我会得到以下结果:

当前状态:待定
正在等待bqjob_r6ac3e4加载操作中的BigQuery错误:错误 加工作业 “我的项目产品:bqjob_r6ac3e4da72b48e4f_u000001528037b394_1”:太多 遇到错误。限制为:0。故障详情: -文件:0:发生内部错误,无法完成请求

我已经能够加载其他大型表,但在加载此表时总是会出现此错误。除了将文件分成越来越小的部分以试图找到有问题的行之外,还有什么方法可以解决这个问题吗


(类似于)

如果您在BigQuery的web UI中找到该作业,它应该会显示前五个错误。这些可能有帮助,也可能没有帮助


此外,您可以将允许的最大坏记录数设置为一个非常高的数字(10000000)。这样,就会跳过有问题的行,您可以通过检查结果来尝试识别它们。(在Java api中,这是方法
JobConfigurationLoad.setMaxBadRecords(int)
,如果您使用命令行,它是选项
--max\u bad\u records=int
)。

查看关于您的作业bqjob\u r6ac3e4da72b48e4f\u00000 1528037b394\u1的日志,我们似乎无法读取第一个文件(可能还有其他文件,但它在抱怨第一个文件)

文件是否被压缩?在过去,当文件被错误压缩时,我们也看到过类似的错误

当然可能是其他问题。但我现在没有足够的信息。如果您可以与我们共享其他失败的作业id,这将很有帮助。如果这些导入作业与文件0一致失败,我可以帮助您在我们的后端进行检查。谢谢!

根据链接:

目前,当您将数据加载到BigQuery中时,gzip是唯一的 CSV和JSON文件支持的文件压缩类型


正如您提到的,您试图加载bzip(这不是一种受支持的格式)您可能会遇到错误。请尝试解压缩文件并加载它,这可能会有所帮助。

您稍后是否尝试过?您是否尝试过在该位置使用一个小文件,可能是因为某些原因无法访问该存储桶中的文件?是的,是的。这似乎不是一个暂时的问题。即使是这样,如果有,也会很好一条信息更丰富的错误消息,或者我可以运行一些工具来验证我的输入文件。谢谢!我将尝试增加最大坏记录数。当我在Web UI中查看作业时,我现在看到的是错误原因:无效。在错误疑难解答中获取有关此错误的详细信息:无效。错误:发生内部错误,请求无法执行无法完成。遇到的错误太多。限制为:0。作业ID:…开始时间:2016年1月26日下午6:45:51结束时间:2016年1月26日下午6:46:22目标表:…源URI:上载的文件源格式:JSON(换行符分隔)架构:不走运。使用--max\u bad\u records 1000000会导致相同的错误消息,没有任何进一步的详细信息。因此,现在它显示“遇到的错误太多。限制为1000000”?请尝试将其设置为大于文件中行数的数字(这就是我建议10000000的原因)。这样你就可以知道问题是否真的存在于特定的线路上。非常感谢您的调查!我必须检查一下,但我打赌这是因为我使用了bgzip而不是gzip。