如何将(.gz)数据集加载到google云(使用python)

如何将(.gz)数据集加载到google云(使用python),python,google-cloud-platform,data-processing,Python,Google Cloud Platform,Data Processing,我想加载大量被压缩的数据(.gz),我不知道如何处理它。 我的数据集来自维基百科 我的目标是提供基本的统计方法来分析它们 我发现这里使用了相同的数据集,但我不知道如何使用python脚本加载数据集,如步骤1所示 我认为在本地计算机上进行如此大量的分析不是正确的方法,因此使用谷歌云的想法是一个巨大的数据集 要将文件复制到Google云存储,只需执行以下操作: 考虑到成本,我不建议您尝试,但无论如何,您已经很幸运地实现了您的目标:Wikipedia的pageviews数据集已集成到Google Bi

我想加载大量被压缩的数据(.gz),我不知道如何处理它。 我的数据集来自维基百科

我的目标是提供基本的统计方法来分析它们

我发现这里使用了相同的数据集,但我不知道如何使用python脚本加载数据集,如步骤1所示


我认为在本地计算机上进行如此大量的分析不是正确的方法,因此使用谷歌云的想法是一个巨大的数据集

要将文件复制到Google云存储,只需执行以下操作:

考虑到成本,我不建议您尝试,但无论如何,您已经很幸运地实现了您的目标:Wikipedia的pageviews数据集已集成到Google BigQuery中,可在以下位置获得:

其中:

  • “谷歌支付这些数据集的存储费用,并通过项目向公众提供数据访问。”

  • “您只需为对数据执行的查询付费(每月前1 TB是免费的)。”


有关更多详细信息,请参阅。

到目前为止,您尝试了什么?请研究一下自己,写一些代码/尝试上传,然后在遇到问题时问一些具体问题。另请参见。@Will:您是否推荐任何处理页面浏览量或其他大型数据集的方法?页面浏览量为2.2TB。除了谷歌在BigQuery上提供的服务外,任何其他服务都涉及大量现金和编码时间。不必担心,只要点击“查询编辑器”,编写一些代码,在有限的日期范围内测试它,保持在免费层,你就会得到答案。不