Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 如何处理Spark中分布的偏态_Apache Spark_Cluster Computing_Load Balancing_Distributed Computing - Fatal编程技术网

Apache spark 如何处理Spark中分布的偏态

Apache spark 如何处理Spark中分布的偏态,apache-spark,cluster-computing,load-balancing,distributed-computing,Apache Spark,Cluster Computing,Load Balancing,Distributed Computing,我在spark cluster中的数据分布有问题,因为我需要一起处理的许多对象都有相同的密钥。因此,许多任务会很快结束,但其中一个任务会继续运行,直到执行器的内存边界和集群应用程序出错并停止。此图显示了历史记录服务器内部发生的情况 这是分布式计算中最大的挑战之一:分配每个任务的负载,以便获得最大的性能 换句话说,您需要每个任务的工作负载与其他任务的工作负载均衡 您需要重新处理您的问题,并以另一种方式解决它(按照建议找到一个“辅助”键),或者尝试执行一个只在大任务上工作的作业(即分配任务本身)。我

我在spark cluster中的数据分布有问题,因为我需要一起处理的许多对象都有相同的密钥。因此,许多任务会很快结束,但其中一个任务会继续运行,直到执行器的内存边界和集群应用程序出错并停止。此图显示了历史记录服务器内部发生的情况


这是分布式计算中最大的挑战之一:分配每个任务的负载,以便获得最大的性能

换句话说,您需要每个任务的工作负载与其他任务的工作负载均衡


您需要重新处理您的问题,并以另一种方式解决它(按照建议找到一个“辅助”键),或者尝试执行一个只在大任务上工作的作业(即分配任务本身)。

我同意,我肯定会在另一个任务中处理倾斜的根源,尝试找到一个“辅助”键进行分区并工作。