无法在Docker中使用python从GCS bucket读取数据_Python_Pandas_Docker_Google Cloud Platform_Containers

无法在Docker中使用python从GCS bucket读取数据

python pandas docker google-cloud-platform

无法在Docker中使用python从GCS bucket读取数据,python,pandas,docker,google-cloud-platform,containers,Python,Pandas,Docker,Google Cloud Platform,Containers,大家好，我正在尝试使用Docker图像中的python代码从GCS bucket读取数据。对于1.23 gb csv文件，需要花费不合理的大量时间，并且执行会自动终止。我将附加Docker文件和python代码 FROM python:3.7.3 WORKDIR /Users/amansaurav/Downloads/xyz/data_process/ RUN pip3 install --upgrade pip RUN pip3 install pandas --upgrade RUN pi

大家好，我正在尝试使用Docker图像中的python代码从GCS bucket读取数据。对于1.23 gb csv文件，需要花费不合理的大量时间，并且执行会自动终止。我将附加Docker文件和python代码

FROM python:3.7.3

WORKDIR /Users/amansaurav/Downloads/xyz/data_process/
RUN pip3 install --upgrade pip
RUN pip3 install pandas --upgrade
RUN pip3 install sklearn
RUN pip3 install argparse
RUN pip3 install 'kfp' --quiet
RUN pip3 install pandas --upgrade
RUN pip3 install --upgrade oauth2client
RUN pip3 install gcsfs
RUN pip3 install https://storage.googleapis.com/ml-pipeline/release/0.1.20/kfp.tar.gz
RUN pip3 install "dask[complete]"

COPY . .
ENV GOOGLE_APPLICATION_CREDENTIALS /Users/amansaurav/Downloads/xyz/data_process/key.json
ENTRYPOINT ["python", "./dataprep.py", "--path", "gs://bucketName/", "--filename", "test.csv" ]

Python代码：

file_path = os.path.join(path,filename)
print('file_path: '+ file_path)

fs = gcsfs.GCSFileSystem(project='projectName')
with fs.open(file_path) as f:
    df = pd.read_csv(f)
print('done')

代码卡在读取csv部分，容器在大量使用CPU后被杀死。我也尝试过使用pandas，但结果是一样的，高cpu使用率导致容器死亡：

df = pd.read_csv(file_path)

我在本地docker环境中运行此功能。这方面的任何线索都会很有帮助

编辑1-我也尝试过使用200kb的文件执行此操作，但成功了，但失败了，文件大小为1.23 GB。

这可能很简单，因为您的容器没有足够的内存来容纳一次容纳1.23 GB数据的pandas数据框吗？我尝试过使用6GB内存来存储docker。您能否分享更多关于容器的信息，听起来问题在于任务所需的资源，而不是编辑中提到的代码