Apache spark 使用Spark结构化流媒体检索图形信息_Apache Spark_Pyspark_Spark Structured Streaming

Apache spark 使用Spark结构化流媒体检索图形信息

apache-spark pyspark

Apache spark 使用Spark结构化流媒体检索图形信息,apache-spark,pyspark,spark-structured-streaming,Apache Spark,Pyspark,Spark Structured Streaming,Spark Streaming在部署的Web UI中提供了一个“流”选项卡（http://localhost:4040用于运行应用程序或http://localhost:18080对于已完成的应用程序（默认情况下均为），对于每个已执行的应用程序，可以获得代表应用程序性能的图形，使用Spark结构化流媒体不再提供。在我的例子中，我正在开发一个具有Spark结构化流的流应用程序，该程序从Kafka代理读取数据，我希望获得每秒处理的记录的图形，例如使用Spark流而不是Spark结构化流时可以获得的图

Spark Streaming在部署的Web UI中提供了一个“流”选项卡（

http://localhost:4040

用于运行应用程序或

http://localhost:18080

对于已完成的应用程序（默认情况下均为），对于每个已执行的应用程序，可以获得代表应用程序性能的图形，使用Spark结构化流媒体不再提供。在我的例子中，我正在开发一个具有Spark结构化流的流应用程序，该程序从Kafka代理读取数据，我希望获得每秒处理的记录的图形，例如使用Spark流而不是Spark结构化流时可以获得的图形信息，以及其他图形信息

实现这一目标的最佳替代方案是什么？我正在使用Spark 3.0.1（通过pyspark库），并将我的应用程序部署在一个纱线集群上

我已经查过了，但仍然不清楚如何以图形方式获取此类信息

提前谢谢你

您在spark UI中看到的大多数度量信息都是由spark导出的

如果spark UI不符合您的需求，您可以检索这些指标并对其进行处理

您可以使用接收器导出数据，例如csv、prometheus等。。。或者通过RESTAPI

您应该看看spark监控：

您在spark UI中看到的大多数度量信息都是由spark导出的

如果spark UI不符合您的需求，您可以检索这些指标并对其进行处理

您可以使用接收器导出数据，例如csv、prometheus等。。。或者通过RESTAPI

你应该看看火花监控：

我设法得到了我想要的。出于某些原因，我仍然不知道，Spark History Server UI用于已完成的应用程序（在

http://localhost:18080

默认情况下）未显示可用于Spark 3.0.1上执行的Spark结构化流媒体应用程序的新选项卡（“结构化流媒体”选项卡）。但是，我通过URL

http://localhost:4040

显示了我想要检索的信息。您只需单击流式查询的“runId”链接即可获得统计信息

如果您看不到此选项卡，根据我的个人经验，我建议您：

升级至Spark最新版本（目前为3.0.1）
请参阅应用程序运行时部署在端口4040的UI上的此信息，而不是应用程序完成时部署在端口18080上的UI

我发现最新的Apache Spark非常有助于实现这一点。

我成功地实现了我想要的。出于某些原因，我仍然不知道，Spark History Server UI用于已完成的应用程序（在

http://localhost:18080

默认情况下）未显示可用于Spark 3.0.1上执行的Spark结构化流媒体应用程序的新选项卡（“结构化流媒体”选项卡）。但是，我通过URL

http://localhost:4040

显示了我想要检索的信息。您只需单击流式查询的“runId”链接即可获得统计信息

如果您看不到此选项卡，根据我的个人经验，我建议您：

升级至Spark最新版本（目前为3.0.1）
请参阅应用程序运行时部署在端口4040的UI上的此信息，而不是应用程序完成时部署在端口18080上的UI

我发现最新的ApacheSpark非常有助于实现这一点