Pyspark 在使用google Colaboratory时如何打开Spark UI?

Pyspark 在使用google Colaboratory时如何打开Spark UI?,pyspark,Pyspark,如何通过Spark WEB UI监控作业的进度?如果运行本地模式,我可以使用本地PC上的4040端口访问Spark UI。我只是使用。按照此操作,您可以执行以下操作 首先,配置Spark UI并启动Spark会话: 导入findspark findspark.init() 从pyspark.sql导入SparkSession 从pyspark导入SparkContext,SparkConf conf=SparkConf().set('spark.ui.port','4050') sc=Spark

如何通过Spark WEB UI监控作业的进度?如果运行本地模式,我可以使用本地PC上的4040端口访问Spark UI。我只是使用。

按照此操作,您可以执行以下操作

首先,配置Spark UI并启动Spark会话:

导入findspark
findspark.init()
从pyspark.sql导入SparkSession
从pyspark导入SparkContext,SparkConf
conf=SparkConf().set('spark.ui.port','4050')
sc=SparkContext(conf=conf)
spark=SparkSession.builder.master('local[*]').getOrCreate()
在下一个单元格运行中:

!wgethttps://bin.equinox.io/c/4VmDzA7iaHb/ngrok-stable-linux-amd64.zip
!解压ngrok-stable-linux-amd64.zip
获取_ipython().system_原始('./ngrok http 4050&'))
它将安装
ngrok
,并创建一个URL,您可以通过该URL访问Spark UI(等待10秒,等待它启动)

现在,要访问URL,请调用:

!curl-shttp://localhost:4040/api/tunnels
它打印出一个类似以下内容的JSON(被截断):

--您正在查找上面的this
“public\u url”
,这是您的Spark UI的url

或者,运行以下命令:

!curl-shttp://localhost:4040/api/tunnels |python3-c“导入sys,json;打印(json.load(sys.stdin)['tunnels'][0]['public_url'])”

我已经测试过了,它对我很有效。

请,等你弄明白后再问我。对我不起作用,只是重新访问了colab笔记本,它对我有效。最后一步最初失败了,但这可能是因为应该有一个睡眠,给UI一些时间来正确设置。您可以简单地重新运行它,它应该是好的。如果没有,请让我知道(你遇到了什么样的错误/什么似乎不起作用)。
{"tunnels":[{"name":"command_line","uri":"/api/tunnels/command_line","public_url":"https://1b881e94406c.ngrok.io","proto":"https", ... }