graphite或grafana能否用于监测pyspark指标?

graphite或grafana能否用于监测pyspark指标?,pyspark,monitoring,grafana,graphite,statsd,Pyspark,Monitoring,Grafana,Graphite,Statsd,在pyspark项目中,我们有pyspark dataframe.foreachPartition(func),在该func中,我们有一些aiohttp调用来传输数据。什么类型的监控工具可以用来监控数据速率、吞吐量、运行时间等指标。。。?在这种情况下,我们可以使用statsd和graphite或grafana(如果可能的话,我们更喜欢它们)?谢谢。这是我的解决方案。我使用PySpark的累加器收集每个分区的指标(http调用数、每次调用发送的有效负载等),在驱动程序节点上,将这些累加器的值分配给

在pyspark项目中,我们有pyspark dataframe.foreachPartition(func),在该func中,我们有一些aiohttp调用来传输数据。什么类型的监控工具可以用来监控数据速率、吞吐量、运行时间等指标。。。?在这种情况下,我们可以使用statsd和graphite或grafana(如果可能的话,我们更喜欢它们)?谢谢。

这是我的解决方案。我使用PySpark的累加器收集每个分区的指标(http调用数、每次调用发送的有效负载等),在驱动程序节点上,将这些累加器的值分配给
statsD
gauge
变量,然后将这些指标发送到Graphite服务器,并最终在Grafana仪表板中可视化。到目前为止效果很好。

您是否找到了一种从数据帧中提取计数的有效方法?比如加载或保存的数量?是的,就像我提到的,我使用Spark的累加器在每个分区(执行器)累积度量,然后在驱动程序节点,我可以将这些累积的度量分配给
statsD
gauge
变量。