Apache spark （Py）Spark框架中数据帧数据的可视化_Apache Spark_Pyspark_Data Visualization_Spark Dataframe

Apache spark （Py）Spark框架中数据帧数据的可视化

apache-spark pyspark

Apache spark （Py）Spark框架中数据帧数据的可视化,apache-spark,pyspark,data-visualization,spark-dataframe,Apache Spark,Pyspark,Data Visualization,Spark Dataframe,关于Spark数据帧方法可视化的问题至于现在（我使用v.2.0.0），Spark DataFrames还没有任何可视化功能。通常，解决方案是将数据帧的一些样本收集到驱动程序中，将其加载到例如熊猫数据帧中，并使用其可视化功能我的问题是：为了可视化数据，我如何知道最大限度地利用驾驶员内存的最佳采样大小？或者，解决这个问题的最佳实践是什么谢谢我不认为这能回答你的问题，但希望它能为其他人，或者你提供一些视角我通常在spark上进行聚合，然后使用Pandas进行可视化（但不将其存储到变量）。在示

关于Spark数据帧方法可视化的问题

至于现在（我使用v.2.0.0），Spark DataFrames还没有任何可视化功能。通常，解决方案是将数据帧的一些样本收集到驱动程序中，将其加载到例如熊猫数据帧中，并使用其可视化功能

我的问题是：为了可视化数据，我如何知道最大限度地利用驾驶员内存的最佳采样大小？或者，解决这个问题的最佳实践是什么

谢谢

我不认为这能回答你的问题，但希望它能为其他人，或者你提供一些视角

我通常在spark上进行聚合，然后使用Pandas进行可视化（但不将其存储到变量）。在示例（简化）中，我会计算每天的活动用户数，然后仅此计数通过Pandas收集和可视化（如果可能，我会尽量避免将数据保存到变量）：

Spark SQL（Dataframes）之上有一个可视化工具，您可以使用Apache Zeppelin笔记本，这是一款开源笔记本，您可以在其中以图形格式查看结果的可视化

这款笔记本电脑的优点是，它内置了对spark集成的支持，因此无需进行配置。至于其他问题，关于内存采样的齐柏林飞艇笔记本随时可用。有关zeppenlin笔记本电脑Spark支持的更多信息，请参阅此

(
spark.table("table_name")
.filter(F.col("status") == "Active")
.groupBy("dt")
.count()
.toPandas()
.plot(x="dt", y="count")
)