Apache spark Spark调试特定任务
我知道这是一个一般性的问题,但我仍然觉得有必要 我有一个火花工作与1个阶段和64个任务。每项任务平均耗时1.5分钟。我使用HDP2.5与纱线。 我的DAG是:Apache spark Spark调试特定任务,apache-spark,cloudera,hortonworks-data-platform,Apache Spark,Cloudera,Hortonworks Data Platform,我知道这是一个一般性的问题,但我仍然觉得有必要 我有一个火花工作与1个阶段和64个任务。每项任务平均耗时1.5分钟。我使用HDP2.5与纱线。 我的DAG是: hadoopRdd -> Filter -> map 我想深入到一个特定的任务,并了解为什么它如此缓慢(显示阶段信息)。 我的意思是DAG的哪个部分花费了很多时间,所以我可以调整我的属性。 我在哪里可以找到这些信息(时间表)?我是否应该将log4j设置为打印时间,以便查看时间?我在spark UI上有任何组件可以帮助我吗
hadoopRdd -> Filter -> map
我想深入到一个特定的任务,并了解为什么它如此缓慢(显示阶段信息)。
我的意思是DAG的哪个部分花费了很多时间,所以我可以调整我的属性。
我在哪里可以找到这些信息(时间表)?我是否应该将log4j设置为打印时间,以便查看时间?我在spark UI上有任何组件可以帮助我吗