Apache spark 如何查找Spark群集的工作人员信息?
我有一个pyspark程序,它使用多个集群 考虑到以下情况,如何找出每个群集所在的计算机:Apache spark 如何查找Spark群集的工作人员信息?,apache-spark,pyspark,Apache Spark,Pyspark,我有一个pyspark程序,它使用多个集群 考虑到以下情况,如何找出每个群集所在的计算机: 我无法访问web UI(从终端远程工作) 我使用的是Python和仅Python,没有Java或Scala 欢迎使用机器的任何唯一标识符(IP地址、名称、序列号…) 我需要一个可读的值,我可以打印到终端 我看到的解决方案只给出了一行spark.metrics.worker,但它们没有指定在此上下文中“spark”是什么(我可以推断它不是SparkCluster) 是否有可能实现像这样的解决方案,但配置
- 我无法访问web UI(从终端远程工作)
- 我使用的是Python和仅Python,没有Java或Scala
- 欢迎使用机器的任何唯一标识符(IP地址、名称、序列号…)
- 我需要一个可读的值,我可以打印到终端
spark.metrics.worker
,但它们没有指定在此上下文中“spark
”是什么(我可以推断它不是SparkCluster)
是否有可能实现像这样的解决方案,但配置为输出工作人员信息而不是常规统计数据
从pyspark.sql导入SparkSession
#理想解决方案示例
火花=火花会话
建设者
.appName(“myCoolApp”)
.config(“spark.workers.show”、“True”)
.getOrCreate()
谢谢 我认为Spark REST API或Metrics system(=您有链接的Databricks示例)都是通用解决方案,并由您执行任何额外的解析和过滤以获得所需的内容,