Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/google-cloud-platform/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Dataframe 数据实验室中大数据集的数据准备和描述_Dataframe_Google Cloud Platform_Google Cloud Datalab - Fatal编程技术网

Dataframe 数据实验室中大数据集的数据准备和描述

Dataframe 数据实验室中大数据集的数据准备和描述,dataframe,google-cloud-platform,google-cloud-datalab,Dataframe,Google Cloud Platform,Google Cloud Datalab,我目前正在处理一个6GB的csv文件,以便从Google云平台的数据中提取一些见解。我经常使用云数据实验室来完成这项工作,因为我发现它是可视化数据的好工具。当我尝试在数据帧中加载所有信息时,问题就出现了。当我在虚拟机中运行Datalab时,我假设性能取决于该虚拟机的能力。目前,每次尝试加载数据帧中的寄存器时,我都会收到一个超时(即使尝试使用4个CPU和15GB RAM的VM)。 在GCP中有没有标准的程序来清理和可视化大数据集的数据(如果可能,使用数据帧)?也许我只是选择了错误的选择 任何帮助都

我目前正在处理一个6GB的csv文件,以便从Google云平台的数据中提取一些见解。我经常使用云数据实验室来完成这项工作,因为我发现它是可视化数据的好工具。当我尝试在数据帧中加载所有信息时,问题就出现了。当我在虚拟机中运行Datalab时,我假设性能取决于该虚拟机的能力。目前,每次尝试加载数据帧中的寄存器时,我都会收到一个超时(即使尝试使用4个CPU和15GB RAM的VM)。 在GCP中有没有标准的程序来清理和可视化大数据集的数据(如果可能,使用数据帧)?也许我只是选择了错误的选择


任何帮助都将不胜感激。

作为更新,我找到了一种方法,将csv文件加载到一个数据帧中,使用不同的库而不是熊猫库(称为“Dask”:[link](Dask.pydata.org/en/latest))。实际上,我能很快地完成一些基本的操作。无论如何,我认为处理超大文件的解决方案是使用足够有代表性的样本数据。

嗨,大卫,我想你可以发表你的评论作为你自己问题的答案。;)这可能会让更多人受益。