Pyspark 如果我的数据无法放入内存,请执行EDA并将其可视化?我的数据集大小是200gigs
执行探索性数据分析是任何机器学习项目的第一步,我主要使用熊猫来执行数据探索,使用适合内存的数据集。。。但我想知道如何执行数据清理、处理缺失数据和数据异常值、单变量图、特征如何影响标签的密度图、相关性等 Pandas使用Python进行数据分析既简单又直观。但由于系统内存有限,我发现在Pandas中处理多个较大的数据帧很困难 对于大于RAM大小的数据集。。。100千兆字节 我看过一些教程,其中他们使用spark根据规则进行过滤,并生成适合内存的数据帧。。。最终总有数据完全驻留在内存中,但我想知道如何使用大数据集并执行探索性数据分析Pyspark 如果我的数据无法放入内存,请执行EDA并将其可视化?我的数据集大小是200gigs,pyspark,data-visualization,plotly,dask,holoviews,Pyspark,Data Visualization,Plotly,Dask,Holoviews,执行探索性数据分析是任何机器学习项目的第一步,我主要使用熊猫来执行数据探索,使用适合内存的数据集。。。但我想知道如何执行数据清理、处理缺失数据和数据异常值、单变量图、特征如何影响标签的密度图、相关性等 Pandas使用Python进行数据分析既简单又直观。但由于系统内存有限,我发现在Pandas中处理多个较大的数据帧很困难 对于大于RAM大小的数据集。。。100千兆字节 我看过一些教程,其中他们使用spark根据规则进行过滤,并生成适合内存的数据帧。。。最终总有数据完全驻留在内存中,但我想知道如
另一个挑战是将大数据可视化以进行探索性数据分析。。。使用seaborn或matplotlib之类的软件包(如果适合内存的话)很容易,但是如何为大数据执行它呢
- 通常情况下,您会希望通过聚合、采样等方式将数据减少到足够小的程度,以便直接进行可视化
- 有些工具用于直接处理大于内存(Dask)的数据以创建视觉效果。一个很好的链接是:
- 通常情况下,您会希望通过聚合、采样等方式将数据减少到足够小的程度,以便直接进行可视化
- 有些工具用于直接处理大于内存(Dask)的数据以创建视觉效果。一个很好的链接是: