Pyspark 在使用google Colaboratory时如何打开Spark UI?
如何通过Spark WEB UI监控作业的进度?如果运行本地模式,我可以使用本地PC上的4040端口访问Spark UI。我只是使用。按照此操作,您可以执行以下操作 首先,配置Spark UI并启动Spark会话:Pyspark 在使用google Colaboratory时如何打开Spark UI?,pyspark,Pyspark,如何通过Spark WEB UI监控作业的进度?如果运行本地模式,我可以使用本地PC上的4040端口访问Spark UI。我只是使用。按照此操作,您可以执行以下操作 首先,配置Spark UI并启动Spark会话: 导入findspark findspark.init() 从pyspark.sql导入SparkSession 从pyspark导入SparkContext,SparkConf conf=SparkConf().set('spark.ui.port','4050') sc=Spark
导入findspark
findspark.init()
从pyspark.sql导入SparkSession
从pyspark导入SparkContext,SparkConf
conf=SparkConf().set('spark.ui.port','4050')
sc=SparkContext(conf=conf)
spark=SparkSession.builder.master('local[*]').getOrCreate()
在下一个单元格运行中:
!wgethttps://bin.equinox.io/c/4VmDzA7iaHb/ngrok-stable-linux-amd64.zip
!解压ngrok-stable-linux-amd64.zip
获取_ipython().system_原始('./ngrok http 4050&'))
它将安装ngrok
,并创建一个URL,您可以通过该URL访问Spark UI(等待10秒,等待它启动)
现在,要访问URL,请调用:
!curl-shttp://localhost:4040/api/tunnels
它打印出一个类似以下内容的JSON(被截断):
--您正在查找上面的this“public\u url”
,这是您的Spark UI的url
或者,运行以下命令:
!curl-shttp://localhost:4040/api/tunnels |python3-c“导入sys,json;打印(json.load(sys.stdin)['tunnels'][0]['public_url'])”
我已经测试过了,它对我很有效。请,等你弄明白后再问我。对我不起作用,只是重新访问了colab笔记本,它对我有效。最后一步最初失败了,但这可能是因为应该有一个睡眠,给UI一些时间来正确设置。您可以简单地重新运行它,它应该是好的。如果没有,请让我知道(你遇到了什么样的错误/什么似乎不起作用)。
{"tunnels":[{"name":"command_line","uri":"/api/tunnels/command_line","public_url":"https://1b881e94406c.ngrok.io","proto":"https", ... }