Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Spark HashPartioner如何处理jdbc数据源?_Apache Spark_Skew - Fatal编程技术网

Apache spark Spark HashPartioner如何处理jdbc数据源?

Apache spark Spark HashPartioner如何处理jdbc数据源?,apache-spark,skew,Apache Spark,Skew,当我在两个jdbc表上执行联接操作时发生了什么,doc说spark2.2将启动2个阶段来读取表数据,1个阶段来执行联接,当在阶段1和阶段2之间进行混洗时,spark使用HashPartitioner对数据进行分区。但是spark将如何计算散列数? 情况是,我没有在任何spark配置中设置任何列,结果表明spark存在服务器数据倾斜问题。 这是我的spark配置: 散列分区器使用连接键。它将散列,然后通过spark.sql.numPartitions修改连接键。如果您遇到dataskew问题,请

当我在两个jdbc表上执行联接操作时发生了什么,doc说spark2.2将启动2个阶段来读取表数据,1个阶段来执行联接,当在阶段1和阶段2之间进行混洗时,spark使用HashPartitioner对数据进行分区。但是spark将如何计算散列数?
情况是,我没有在任何spark配置中设置任何列,结果表明spark存在服务器数据倾斜问题。

这是我的spark配置:

散列分区器使用连接键。它将散列,然后通过spark.sql.numPartitions修改连接键。如果您遇到dataskew问题,请将倾斜的键过滤到单独的数据帧中。在歪斜键数据帧上执行广播连接(使用提示),然后在非歪斜键上执行常规连接。

的可能重复。