Python 3.x 使用python和Google云引擎处理大数据_Python 3.x_Google Cloud Platform_Google Cloud Datastore_Bigdata_Google Cloud Storage

Python 3.x 使用python和Google云引擎处理大数据

python-3.x google-cloud-platform google-cloud-storage

Python 3.x 使用python和Google云引擎处理大数据,python-3.x,google-cloud-platform,google-cloud-datastore,bigdata,google-cloud-storage,Python 3.x,Google Cloud Platform,Google Cloud Datastore,Bigdata,Google Cloud Storage,我是Python编程的业余爱好者，我需要帮助。我有10GB的数据，我用Spyder编写了python代码来处理数据。提供了部分代码：代码很好，数据样本很小。然而，由于有10GB的数据，我的笔记本电脑无法处理，所以我需要使用谷歌云引擎。我如何上传数据并使用谷歌云引擎运行代码 import os import pandas as pd import pickle import glob import numpy as np df=pd.read_pickle(r'C:\user\mydata.p

我是Python编程的业余爱好者，我需要帮助。我有10GB的数据，我用Spyder编写了python代码来处理数据。提供了部分代码：代码很好，数据样本很小。然而，由于有10GB的数据，我的笔记本电脑无法处理，所以我需要使用谷歌云引擎。我如何上传数据并使用谷歌云引擎运行代码

import os
import pandas as pd 
import pickle
import glob
import numpy as np
df=pd.read_pickle(r'C:\user\mydata.pkl')
i=2018
while i>=1995:
    df=df[df.OverlapYearStart<=i]
    df.to_pickle(r'C:\user\done\{}.pkl'.format(i))
    i=i-1

导入操作系统
作为pd进口熊猫
进口泡菜
导入glob
将numpy作为np导入
df=pd.read\u pickle（r'C:\user\mydata.pkl'）
i=2018年
而我>=1995：
df=df[df.start可能最容易开始深入研究的事情是使用App Engine来运行代码本身：

并使用谷歌云存储来保存您的数据对象：

我不知道您的应用程序的输出是什么，因此，如果AppEngine不太适合您的工作，那么Google Compute Engine可能是正确的答案，具体取决于您希望如何处理输出

前两个链接将带您访问关于如何使用Python for AppEngine和Google云存储的文档
编辑以添加评论，您还需要管理应用程序的内存占用。如果您真的在一个巨大的while循环中完成所有工作，那么无论您在哪里运行应用程序，您都会遇到内存问题，因为您的所有10GB数据都可能会加载到内存中。当然，我还是会将其转移到云中，但是，是的，这是我的问题mory将需要以某种方式分解并分块处理。
我同意前面的答案，作为补充，您可以看看其中的托管服务，它提供了一个集成的JupyterLab环境，还可以从BigQuery中提取数据，并允许您按需扩展应用程序
另一方面，我不知道你是如何将10GB的数据存储到CSV中的？在数据库中？正如第一个答案中提到的，它允许你创建存储桶来存储数据，一旦数据进入云存储，你可以将数据导出到BigQuery表中，以便在应用程序中使用该数据或早期的AI平台说明书籍这将取决于您的解决方案。
笔记本电脑无法处理10GB数据的原因似乎是内存限制。目前，App Engine的最大容量为2GB。在考虑迁移到App Engine之前，需要以某种方式重新编写代码，以避免将所有数据存储在内存中。确实如此。我仍然会将其移动到C需要进行一些优化，将数据处理分解为队列或其他数据结构。