Python 3.x 使用python和Google云引擎处理大数据

Python 3.x 使用python和Google云引擎处理大数据,python-3.x,google-cloud-platform,google-cloud-datastore,bigdata,google-cloud-storage,Python 3.x,Google Cloud Platform,Google Cloud Datastore,Bigdata,Google Cloud Storage,我是Python编程的业余爱好者,我需要帮助。我有10GB的数据,我用Spyder编写了python代码来处理数据。提供了部分代码: 代码很好,数据样本很小。然而,由于有10GB的数据,我的笔记本电脑无法处理,所以我需要使用谷歌云引擎。我如何上传数据并使用谷歌云引擎运行代码 import os import pandas as pd import pickle import glob import numpy as np df=pd.read_pickle(r'C:\user\mydata.p

我是Python编程的业余爱好者,我需要帮助。我有10GB的数据,我用Spyder编写了python代码来处理数据。提供了部分代码: 代码很好,数据样本很小。然而,由于有10GB的数据,我的笔记本电脑无法处理,所以我需要使用谷歌云引擎。我如何上传数据并使用谷歌云引擎运行代码

import os
import pandas as pd 
import pickle
import glob
import numpy as np
df=pd.read_pickle(r'C:\user\mydata.pkl')
i=2018
while i>=1995:
    df=df[df.OverlapYearStart<=i]
    df.to_pickle(r'C:\user\done\{}.pkl'.format(i))
    i=i-1
导入操作系统
作为pd进口熊猫
进口泡菜
导入glob
将numpy作为np导入
df=pd.read\u pickle(r'C:\user\mydata.pkl')
i=2018年
而我>=1995:

df=df[df.start可能最容易开始深入研究的事情是使用App Engine来运行代码本身:

并使用谷歌云存储来保存您的数据对象:

我不知道您的应用程序的输出是什么,因此,如果AppEngine不太适合您的工作,那么Google Compute Engine可能是正确的答案,具体取决于您希望如何处理输出

前两个链接将带您访问关于如何使用Python for AppEngine和Google云存储的文档


编辑以添加评论,您还需要管理应用程序的内存占用。如果您真的在一个巨大的while循环中完成所有工作,那么无论您在哪里运行应用程序,您都会遇到内存问题,因为您的所有10GB数据都可能会加载到内存中。当然,我还是会将其转移到云中,但是,是的,这是我的问题mory将需要以某种方式分解并分块处理。

我同意前面的答案,作为补充,您可以看看其中的托管服务,它提供了一个集成的JupyterLab环境,还可以从BigQuery中提取数据,并允许您按需扩展应用程序


另一方面,我不知道你是如何将10GB的数据存储到CSV中的?在数据库中?正如第一个答案中提到的,它允许你创建存储桶来存储数据,一旦数据进入云存储,你可以将数据导出到BigQuery表中,以便在应用程序中使用该数据或早期的AI平台说明书籍这将取决于您的解决方案。

笔记本电脑无法处理10GB数据的原因似乎是内存限制。目前,App Engine的最大容量为2GB。在考虑迁移到App Engine之前,需要以某种方式重新编写代码,以避免将所有数据存储在内存中。确实如此。我仍然会将其移动到C需要进行一些优化,将数据处理分解为队列或其他数据结构。