Scala SparkSQL:小输入任务需要花费数小时

Scala SparkSQL:小输入任务需要花费数小时,scala,apache-spark,apache-spark-sql,Scala,Apache Spark,Apache Spark Sql,我目前在ApacheSpark2.1(scala)中面临一个奇怪的问题。 我正在运行sparkSQL作业,该作业在一个任务上挂起超过2小时: 前两个任务需要2个多小时才能完成751条输入记录,这对我来说毫无意义 此外,在日志中,我可以看到: 18/07/16 14:34:43 INFO Executor: Running task 0.0 in stage 21.0 (TID 3974) 18/07/16 14:34:43 INFO Executor: Finished task 0.0 in

我目前在ApacheSpark2.1(scala)中面临一个奇怪的问题。 我正在运行sparkSQL作业,该作业在一个任务上挂起超过2小时:

前两个任务需要2个多小时才能完成751条输入记录,这对我来说毫无意义

此外,在日志中,我可以看到:

18/07/16 14:34:43 INFO Executor: Running task 0.0 in stage 21.0 (TID 3974)
18/07/16 14:34:43 INFO Executor: Finished task 0.0 in stage 21.0 (TID 3974). 16874 bytes result sent to driver
18/07/16 14:34:43 INFO Executor: Finished task 136.0 in stage 21.0 (TID 3873). 18268 bytes result sent to driver
18/07/16 16:44:42 INFO Executor: Finished task 196.0 in stage 21.0 (TID 3921). 17190 bytes result sent to driver
18/07/16 16:44:43 INFO BlockManager: Removing RDD 7
18/07/16 16:44:43 INFO BlockManager: Removing RDD 59
看来遗嘱执行人什么都没做


以前有没有人遇到过这样的问题,或者有人对此有什么见解?

您是否检查过是否有足够的资源?能否确认每个节点(驱动程序/执行程序)上都有足够的磁盘空间?您能确认没有其他spark作业在相同的节点上运行吗?对于资源和磁盘空间,我非常确定这是正常的。此作业与其他spark作业一起在群集上运行,但是此作业在相同任务的每次运行时都会挂起,因此我认为这不是由于其他spark作业造成的,因为它可能会随机挂起。您能否分享更多详细信息:1。输入数据的大小是多少?它以哪种格式保存?你能分享一个简单的代码来重现这个问题吗(至少在你这边)?@nsanglar还请提供物理计算计划,这将有很大帮助