Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/flash/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 使用Spark结构化流媒体检索图形信息_Apache Spark_Pyspark_Spark Structured Streaming - Fatal编程技术网

Apache spark 使用Spark结构化流媒体检索图形信息

Apache spark 使用Spark结构化流媒体检索图形信息,apache-spark,pyspark,spark-structured-streaming,Apache Spark,Pyspark,Spark Structured Streaming,Spark Streaming在部署的Web UI中提供了一个“流”选项卡(http://localhost:4040用于运行应用程序或http://localhost:18080对于已完成的应用程序(默认情况下均为),对于每个已执行的应用程序,可以获得代表应用程序性能的图形,使用Spark结构化流媒体不再提供。在我的例子中,我正在开发一个具有Spark结构化流的流应用程序,该程序从Kafka代理读取数据,我希望获得每秒处理的记录的图形,例如使用Spark流而不是Spark结构化流时可以获得的图

Spark Streaming在部署的Web UI中提供了一个“流”选项卡(
http://localhost:4040
用于运行应用程序或
http://localhost:18080
对于已完成的应用程序(默认情况下均为),对于每个已执行的应用程序,可以获得代表应用程序性能的图形,使用Spark结构化流媒体不再提供。在我的例子中,我正在开发一个具有Spark结构化流的流应用程序,该程序从Kafka代理读取数据,我希望获得每秒处理的记录的图形,例如使用Spark流而不是Spark结构化流时可以获得的图形信息,以及其他图形信息

实现这一目标的最佳替代方案是什么?我正在使用Spark 3.0.1(通过pyspark库),并将我的应用程序部署在一个纱线集群上

我已经查过了,但仍然不清楚如何以图形方式获取此类信息


提前谢谢你

您在spark UI中看到的大多数度量信息都是由spark导出的

如果spark UI不符合您的需求,您可以检索这些指标并对其进行处理

您可以使用接收器导出数据,例如csv、prometheus等。。。或者通过RESTAPI


您应该看看spark监控:

您在spark UI中看到的大多数度量信息都是由spark导出的

如果spark UI不符合您的需求,您可以检索这些指标并对其进行处理

您可以使用接收器导出数据,例如csv、prometheus等。。。或者通过RESTAPI


你应该看看火花监控:

我设法得到了我想要的。出于某些原因,我仍然不知道,Spark History Server UI用于已完成的应用程序(在
http://localhost:18080
默认情况下)未显示可用于Spark 3.0.1上执行的Spark结构化流媒体应用程序的新选项卡(“结构化流媒体”选项卡)。但是,我通过URL
http://localhost:4040
显示了我想要检索的信息。您只需单击流式查询的“runId”链接即可获得统计信息

如果您看不到此选项卡,根据我的个人经验,我建议您:

  • 升级至Spark最新版本(目前为3.0.1)
  • 请参阅应用程序运行时部署在端口4040的UI上的此信息,而不是应用程序完成时部署在端口18080上的UI

我发现最新的Apache Spark非常有助于实现这一点。

我成功地实现了我想要的。出于某些原因,我仍然不知道,Spark History Server UI用于已完成的应用程序(在
http://localhost:18080
默认情况下)未显示可用于Spark 3.0.1上执行的Spark结构化流媒体应用程序的新选项卡(“结构化流媒体”选项卡)。但是,我通过URL
http://localhost:4040
显示了我想要检索的信息。您只需单击流式查询的“runId”链接即可获得统计信息

如果您看不到此选项卡,根据我的个人经验,我建议您:

  • 升级至Spark最新版本(目前为3.0.1)
  • 请参阅应用程序运行时部署在端口4040的UI上的此信息,而不是应用程序完成时部署在端口18080上的UI
我发现最新的ApacheSpark非常有助于实现这一点