Optimization 在GoogleBigQuery上优化数据上传

Optimization 在GoogleBigQuery上优化数据上传,optimization,bigdata,google-bigquery,Optimization,Bigdata,Google Bigquery,我目前正在使用Google BigQuery平台上传许多数据(~>6 Go),并将它们作为Tableau桌面软件的数据源使用。 目前,我用一个使用谷歌API的python脚本,以CSV格式(总共6个Go)上传12个未压缩的表,平均需要一个小时。 谷歌文档规定,“如果加载速度对你的应用程序很重要,而且你有很多带宽来加载数据,请保持文件未压缩。”。 如何优化此过程?应该是压缩我的csv文件以提高上传速度的解决方案吗? 我也考虑过使用谷歌云存储,但我想我的问题也会一样? 我需要减少上传数据文件的时间,

我目前正在使用Google BigQuery平台上传许多数据(~>6 Go),并将它们作为Tableau桌面软件的数据源使用。 目前,我用一个使用谷歌API的python脚本,以CSV格式(总共6个Go)上传12个未压缩的表,平均需要一个小时。 谷歌文档规定,“如果加载速度对你的应用程序很重要,而且你有很多带宽来加载数据,请保持文件未压缩。”。 如何优化此过程?应该是压缩我的csv文件以提高上传速度的解决方案吗? 我也考虑过使用谷歌云存储,但我想我的问题也会一样? 我需要减少上传数据文件的时间,但我没有找到很好的解决方案


提前感谢。

压缩输入数据将减少上传数据的时间,但会增加上传数据后执行加载作业的时间(压缩限制了我们并行处理数据的能力)。因为听起来你更喜欢优化上传速度,我建议压缩你的数据

请注意,如果您愿意将数据分成几个块并分别压缩,您可以同时获得两个方面的优势——快速上传和并行加载作业

上传到谷歌云存储应该有相同的权衡,除了一个优点:您可以在一个加载作业中指定多个源文件。如果您按照上面的建议预切分数据,这将非常方便,因为这样您就可以运行一个加载作业,将多个压缩的输入文件指定为源文件