Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/346.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
无法在Docker中使用python从GCS bucket读取数据_Python_Pandas_Docker_Google Cloud Platform_Containers - Fatal编程技术网

无法在Docker中使用python从GCS bucket读取数据

无法在Docker中使用python从GCS bucket读取数据,python,pandas,docker,google-cloud-platform,containers,Python,Pandas,Docker,Google Cloud Platform,Containers,大家好,我正在尝试使用Docker图像中的python代码从GCS bucket读取数据。对于1.23 gb csv文件,需要花费不合理的大量时间,并且执行会自动终止。我将附加Docker文件和python代码 FROM python:3.7.3 WORKDIR /Users/amansaurav/Downloads/xyz/data_process/ RUN pip3 install --upgrade pip RUN pip3 install pandas --upgrade RUN pi

大家好,我正在尝试使用Docker图像中的python代码从GCS bucket读取数据。对于1.23 gb csv文件,需要花费不合理的大量时间,并且执行会自动终止。我将附加Docker文件和python代码

FROM python:3.7.3

WORKDIR /Users/amansaurav/Downloads/xyz/data_process/
RUN pip3 install --upgrade pip
RUN pip3 install pandas --upgrade
RUN pip3 install sklearn
RUN pip3 install argparse
RUN pip3 install 'kfp' --quiet
RUN pip3 install pandas --upgrade
RUN pip3 install --upgrade oauth2client
RUN pip3 install gcsfs
RUN pip3 install https://storage.googleapis.com/ml-pipeline/release/0.1.20/kfp.tar.gz
RUN pip3 install "dask[complete]"

COPY . .
ENV GOOGLE_APPLICATION_CREDENTIALS /Users/amansaurav/Downloads/xyz/data_process/key.json
ENTRYPOINT ["python", "./dataprep.py", "--path", "gs://bucketName/", "--filename", "test.csv" ]
Python代码:

file_path = os.path.join(path,filename)
print('file_path: '+ file_path)

fs = gcsfs.GCSFileSystem(project='projectName')
with fs.open(file_path) as f:
    df = pd.read_csv(f)
print('done')
代码卡在读取csv部分,容器在大量使用CPU后被杀死。 我也尝试过使用pandas,但结果是一样的,高cpu使用率导致容器死亡:

df = pd.read_csv(file_path)
我在本地docker环境中运行此功能。这方面的任何线索都会很有帮助


编辑1-我也尝试过使用200kb的文件执行此操作,但成功了,但失败了,文件大小为1.23 GB。

这可能很简单,因为您的容器没有足够的内存来容纳一次容纳1.23 GB数据的pandas数据框吗?我尝试过使用6GB内存来存储docker。您能否分享更多关于容器的信息,听起来问题在于任务所需的资源,而不是编辑中提到的代码