Apache spark 我正在使用Google Cloud dataproc群集运行Spark。数据集写入GCS stucks,其中有一项任务一直未结束

Apache spark 我正在使用Google Cloud dataproc群集运行Spark。数据集写入GCS stucks,其中有一项任务一直未结束,apache-spark,google-cloud-dataproc,apache-spark-dataset,Apache Spark,Google Cloud Dataproc,Apache Spark Dataset,我正在使用Google Cloud dataproc群集运行Spark。在将数据集写入GCS bucket(谷歌云存储)时,它击中了最后一个分区,这个分区永远不会结束 它显示799/800任务已完成。但是挂起的1任务永远不会结束。这主要是由于数据倾斜造成的 此外,如果您正在尝试联接,那么请检查用于联接的列中是否没有空值。这可能会导致空值发生交叉连接,这主要是由于数据倾斜造成的 此外,如果您正在尝试联接,那么请检查用于联接的列中是否没有空值。这可能会导致空值发生交叉连接

我正在使用Google Cloud dataproc群集运行Spark。在将数据集写入GCS bucket(谷歌云存储)时,它击中了最后一个分区,这个分区永远不会结束


它显示799/800任务已完成。但是挂起的1任务永远不会结束。

这主要是由于数据倾斜造成的


此外,如果您正在尝试联接,那么请检查用于联接的列中是否没有空值。这可能会导致空值发生交叉连接,这主要是由于数据倾斜造成的

此外,如果您正在尝试联接,那么请检查用于联接的列中是否没有空值。这可能会导致空值发生交叉连接