Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 如何获取spark任务的详细信息_Apache Spark - Fatal编程技术网

Apache spark 如何获取spark任务的详细信息

Apache spark 如何获取spark任务的详细信息,apache-spark,Apache Spark,通过查看Spark UI时间表,我发现我的Spark应用程序在特定阶段的最后一个任务总是花费太多时间。这项任务似乎不可能永远完成,我甚至比正常任务等待的时间长了六倍 我想获得更多关于lask任务的信息,但我不知道如何调试这个特定任务,有人能给我一些建议吗 谢谢你的帮助 数据已被很好地分区,因此lask任务没有太多数据 检查结果数据帧的解释计划,以了解正在发生的操作。有洗牌吗?有时,在数据帧上执行操作(例如联接)时,可能会导致中间数据帧映射到较少数量的分区,这可能会导致性能降低,因为数据分布不尽可

通过查看Spark UI时间表,我发现我的Spark应用程序在特定阶段的最后一个任务总是花费太多时间。这项任务似乎不可能永远完成,我甚至比正常任务等待的时间长了六倍

我想获得更多关于lask任务的信息,但我不知道如何调试这个特定任务,有人能给我一些建议吗

谢谢你的帮助

数据已被很好地分区,因此lask任务没有太多数据

  • 检查结果数据帧的解释计划,以了解正在发生的操作。有洗牌吗?有时,在数据帧上执行操作(例如联接)时,可能会导致中间数据帧映射到较少数量的分区,这可能会导致性能降低,因为数据分布不尽可能均匀

  • 检查是否存在大量对此类数据帧的无序移动和重复调用,并尝试缓存无序移动后立即出现的数据帧

  • 检查Spark UI(驱动程序的地址:4040为默认值),查看缓存数据帧的数据量是多少,进程是什么,是否有任何其他开销,如gc,或者是否是纯处理时间

  • 希望有帮助