Apache spark 如何知道每个Spark任务/执行者执行的工作类型

Apache spark 如何知道每个Spark任务/执行者执行的工作类型,apache-spark,pyspark,spark-ui,Apache Spark,Pyspark,Spark Ui,当我的应用程序在Spark群集上运行时,我知道以下几点 1) 执行计划 2) 节点为RDD或操作的DAG 3) 所有作业/阶段/执行者/任务 但是,我不知道如何知道给定一个任务ID,该任务执行什么类型的工作(RDD或操作) 从任务中,我可以知道它的执行者ID和它运行的机器。在机器上,如果我们grep Java和ID,我们可以得到 /bin/bash -c /usr/lib/jvm/jdk1.8.0_192/bin/java -server -Xmx12288m '-XX:MaxMetaspace

当我的应用程序在Spark群集上运行时,我知道以下几点

1) 执行计划

2) 节点为RDD或操作的DAG

3) 所有作业/阶段/执行者/任务

但是,我不知道如何知道给定一个任务ID,该任务执行什么类型的工作(RDD或操作)

从任务中,我可以知道它的执行者ID和它运行的机器。在机器上,如果我们grep Java和ID,我们可以得到

/bin/bash -c /usr/lib/jvm/jdk1.8.0_192/bin/java -server -Xmx12288m '-XX:MaxMetaspaceSize=256M' '-Djava.library.path=/opt/hadoop/lib/native' '-Djava.util.logging.config.file=/opt/spark2/conf/parquet.logging.properties' -Djava.io.tmpdir=/tmp/hadoop-root/nmlocaldir/usercache/appcache/application_1549756402460_92964/container_1549756402460_92964_01_000012/tmp '-Dspark.driver.port=35617' '-Dspark.network.timeout=3000s' -Dspark.yarn.app.container.log.dir=/mnt/yarn-logs/userlogs/application_1549756402460_92964/container_1549756402460_92964_01_000012 -XX:OnOutOfMemoryError='kill %p' org.apache.spark.executor.CoarseGrainedExecutorBackend --driver-url spark://CoarseGrainedScheduler@10.0.72.160:35617 --executor-id 11 --hostname abc --cores 3 --app-id application_1549756402460_92964 --user-class-path file:/tmp/hadoop-root/nm-local-dir/usercache/appcache/application_1549756402460_92964/container_1549756402460_92964_01_000012/__app__.jar 1>/mnt/yarn-logs/userlogs/application_1549756402460_92964/container_1549756402460_92964_01_000012/stdout 2> /mnt/yarn-logs/userlogs/application_1549756402460_92964/container_1549756402460_92964_01_000012/stderr

但它没有告诉我它是干什么的。。。Spark是否公开了信息?

是的,我也有同样的问题,我只是在workers代码中添加了一些日志,然后我看到了发生的事情。是的,我也有同样的问题,我只是在workers代码中添加了一些日志,然后我看到了发生的事情。