Python 在apache spark中使用seaborn
使用pandas和seaborn在一个有5000万个案例的csv数据框上制作一些散布矩阵,我注意到处理时间非常长,为了方便起见,我对部分数据制作了Python 在apache spark中使用seaborn,python,apache-spark,pyspark,seaborn,scatter-matrix,Python,Apache Spark,Pyspark,Seaborn,Scatter Matrix,使用pandas和seaborn在一个有5000万个案例的csv数据框上制作一些散布矩阵,我注意到处理时间非常长,为了方便起见,我对部分数据制作了df.sample(),这减少了处理时间。考虑到ApacheSpark的潜力,我想问一下是否有可能应用它的速度来处理所有5000万个要创建的数据:scatter matrix,scatter plot,pairgrid等。从这方面的信息来看,我发现要做到这一点相当困难
df.sample()
,这减少了处理时间。考虑到ApacheSpark的潜力,我想问一下是否有可能应用它的速度来处理所有5000万个要创建的数据:scatter matrix
,scatter plot
,pairgrid
等。从这方面的信息来看,我发现要做到这一点相当困难