Apache spark (Py)Spark框架中数据帧数据的可视化

Apache spark (Py)Spark框架中数据帧数据的可视化,apache-spark,pyspark,data-visualization,spark-dataframe,Apache Spark,Pyspark,Data Visualization,Spark Dataframe,关于Spark数据帧方法可视化的问题 至于现在(我使用v.2.0.0),Spark DataFrames还没有任何可视化功能。通常,解决方案是将数据帧的一些样本收集到驱动程序中,将其加载到例如熊猫数据帧中,并使用其可视化功能 我的问题是:为了可视化数据,我如何知道最大限度地利用驾驶员内存的最佳采样大小?或者,解决这个问题的最佳实践是什么 谢谢 我不认为这能回答你的问题,但希望它能为其他人,或者你提供一些视角 我通常在spark上进行聚合,然后使用Pandas进行可视化(但不将其存储到变量)。在示

关于Spark数据帧方法可视化的问题

至于现在(我使用v.2.0.0),Spark DataFrames还没有任何可视化功能。通常,解决方案是将数据帧的一些样本收集到驱动程序中,将其加载到例如熊猫数据帧中,并使用其可视化功能

我的问题是:为了可视化数据,我如何知道最大限度地利用驾驶员内存的最佳采样大小?或者,解决这个问题的最佳实践是什么


谢谢

我不认为这能回答你的问题,但希望它能为其他人,或者你提供一些视角

我通常在spark上进行聚合,然后使用Pandas进行可视化(但不将其存储到变量)。在示例(简化)中,我会计算每天的活动用户数,然后仅此计数通过Pandas收集和可视化(如果可能,我会尽量避免将数据保存到变量):


Spark SQL(Dataframes)之上有一个可视化工具,您可以使用Apache Zeppelin笔记本,这是一款开源笔记本,您可以在其中以图形格式查看结果的可视化

这款笔记本电脑的优点是,它内置了对spark集成的支持,因此无需进行配置。至于其他问题,关于内存采样的齐柏林飞艇笔记本随时可用。有关zeppenlin笔记本电脑Spark支持的更多信息,请参阅此

(
spark.table("table_name")
.filter(F.col("status") == "Active")
.groupBy("dt")
.count()
.toPandas()
.plot(x="dt", y="count")
)