Pyspark 如果我的数据无法放入内存,请执行EDA并将其可视化?我的数据集大小是200gigs

Pyspark 如果我的数据无法放入内存,请执行EDA并将其可视化?我的数据集大小是200gigs,pyspark,data-visualization,plotly,dask,holoviews,Pyspark,Data Visualization,Plotly,Dask,Holoviews,执行探索性数据分析是任何机器学习项目的第一步,我主要使用熊猫来执行数据探索,使用适合内存的数据集。。。但我想知道如何执行数据清理、处理缺失数据和数据异常值、单变量图、特征如何影响标签的密度图、相关性等 Pandas使用Python进行数据分析既简单又直观。但由于系统内存有限,我发现在Pandas中处理多个较大的数据帧很困难 对于大于RAM大小的数据集。。。100千兆字节 我看过一些教程,其中他们使用spark根据规则进行过滤,并生成适合内存的数据帧。。。最终总有数据完全驻留在内存中,但我想知道如

执行探索性数据分析是任何机器学习项目的第一步,我主要使用熊猫来执行数据探索,使用适合内存的数据集。。。但我想知道如何执行数据清理、处理缺失数据和数据异常值、单变量图、特征如何影响标签的密度图、相关性等

Pandas使用Python进行数据分析既简单又直观。但由于系统内存有限,我发现在Pandas中处理多个较大的数据帧很困难

对于大于RAM大小的数据集。。。100千兆字节

我看过一些教程,其中他们使用spark根据规则进行过滤,并生成适合内存的数据帧。。。最终总有数据完全驻留在内存中,但我想知道如何使用大数据集并执行探索性数据分析


另一个挑战是将大数据可视化以进行探索性数据分析。。。使用seaborn或matplotlib之类的软件包(如果适合内存的话)很容易,但是如何为大数据执行它呢

  • 通常情况下,您会希望通过聚合、采样等方式将数据减少到足够小的程度,以便直接进行可视化

  • 有些工具用于直接处理大于内存(Dask)的数据以创建视觉效果。一个很好的链接是:


要搭建具体的东西:

  • 通常情况下,您会希望通过聚合、采样等方式将数据减少到足够小的程度,以便直接进行可视化

  • 有些工具用于直接处理大于内存(Dask)的数据以创建视觉效果。一个很好的链接是:


是的,达斯克可以做这些事情,spark也可以。那么你到底想做什么,你尝试过什么,问题在哪里?你试过教程吗?我在工作中的大多数项目和培训期间试过的教程都没有如此大规模的数据。。。有一次我使用了35G的数据,但当我使用spark进行过滤时,它会被存储在内存中,所以我只是使用教程中的方法来做事情。。。现在我需要重新设计自己,但找不到有用的信息,而且事情太多了,如果你能指出一些参考代码或教程,并根据我的需要修改它,我将不胜感激。谢谢,真的helpful@mdurant你能指出一些教程,让我们可视化那些不适合内存和争论的大型数据集吗使用DaskYes,dask可以做这些事情,也可以激发灵感。那么你到底想做什么,你尝试过什么,问题在哪里?你试过教程吗?我在工作中的大多数项目和培训期间试过的教程都没有如此大规模的数据。。。有一次我使用了35G的数据,但当我使用spark进行过滤时,它会被存储在内存中,所以我只是使用教程中的方法来做事情。。。现在我需要重新设计自己,但找不到有用的信息,而且事情太多了,如果你能指出一些参考代码或教程,并根据我的需要修改它,我将不胜感激。谢谢,真的helpful@mdurant你能指出一些教程,让我们可视化那些不适合内存和争论的大型数据集吗使用Dask