Apache spark 使用Spark结构化流媒体检索图形信息
Spark Streaming在部署的Web UI中提供了一个“流”选项卡(Apache spark 使用Spark结构化流媒体检索图形信息,apache-spark,pyspark,spark-structured-streaming,Apache Spark,Pyspark,Spark Structured Streaming,Spark Streaming在部署的Web UI中提供了一个“流”选项卡(http://localhost:4040用于运行应用程序或http://localhost:18080对于已完成的应用程序(默认情况下均为),对于每个已执行的应用程序,可以获得代表应用程序性能的图形,使用Spark结构化流媒体不再提供。在我的例子中,我正在开发一个具有Spark结构化流的流应用程序,该程序从Kafka代理读取数据,我希望获得每秒处理的记录的图形,例如使用Spark流而不是Spark结构化流时可以获得的图
http://localhost:4040
用于运行应用程序或http://localhost:18080
对于已完成的应用程序(默认情况下均为),对于每个已执行的应用程序,可以获得代表应用程序性能的图形,使用Spark结构化流媒体不再提供。在我的例子中,我正在开发一个具有Spark结构化流的流应用程序,该程序从Kafka代理读取数据,我希望获得每秒处理的记录的图形,例如使用Spark流而不是Spark结构化流时可以获得的图形信息,以及其他图形信息
实现这一目标的最佳替代方案是什么?我正在使用Spark 3.0.1(通过pyspark库),并将我的应用程序部署在一个纱线集群上
我已经查过了,但仍然不清楚如何以图形方式获取此类信息
提前谢谢你 您在spark UI中看到的大多数度量信息都是由spark导出的 如果spark UI不符合您的需求,您可以检索这些指标并对其进行处理 您可以使用接收器导出数据,例如csv、prometheus等。。。或者通过RESTAPI
您应该看看spark监控:您在spark UI中看到的大多数度量信息都是由spark导出的 如果spark UI不符合您的需求,您可以检索这些指标并对其进行处理 您可以使用接收器导出数据,例如csv、prometheus等。。。或者通过RESTAPI
你应该看看火花监控:我设法得到了我想要的。出于某些原因,我仍然不知道,Spark History Server UI用于已完成的应用程序(在
http://localhost:18080
默认情况下)未显示可用于Spark 3.0.1上执行的Spark结构化流媒体应用程序的新选项卡(“结构化流媒体”选项卡)。但是,我通过URLhttp://localhost:4040
显示了我想要检索的信息。您只需单击流式查询的“runId”链接即可获得统计信息
如果您看不到此选项卡,根据我的个人经验,我建议您:
- 升级至Spark最新版本(目前为3.0.1)
- 请参阅应用程序运行时部署在端口4040的UI上的此信息,而不是应用程序完成时部署在端口18080上的UI
我发现最新的Apache Spark非常有助于实现这一点。我成功地实现了我想要的。出于某些原因,我仍然不知道,Spark History Server UI用于已完成的应用程序(在
http://localhost:18080
默认情况下)未显示可用于Spark 3.0.1上执行的Spark结构化流媒体应用程序的新选项卡(“结构化流媒体”选项卡)。但是,我通过URLhttp://localhost:4040
显示了我想要检索的信息。您只需单击流式查询的“runId”链接即可获得统计信息
如果您看不到此选项卡,根据我的个人经验,我建议您:
- 升级至Spark最新版本(目前为3.0.1)
- 请参阅应用程序运行时部署在端口4040的UI上的此信息,而不是应用程序完成时部署在端口18080上的UI